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Déroulement du cours 


»> 4 séances de 1h30 en amphithéâtre (cours) 
@ Statistiques descriptives 
@ Introduction à la théorie des probabilités 
Q Estimation paramétrique 
Q introduction aux tests d'hypothèse 
> 4 séances de 3h en salle informatique (TP) 
@ Prise en main du logiciel R et statistique descriptive univariée 
@ Loi binomiale, loi normale et théorèmes limites (CC1) 
@ Estimation ponctuelle, loi du x? et de student 
Q Applications des intervalles de confiance et tests statistiques 
(paranormal, cryptographie, adéquation de loi, etc.) (CC2) 


> 1 langage et logiciel de programmation dédié aux statistiques : R 
»> 1 note de contrôle continu (CC) moyenne de CCI et CC2 
> 1 note d'examen écrit (EX) 


Note finale = max(EX,moyenne(CC,EX)) 
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Supports de cours 


Des notes de cours 


e Notes de cours d'Élise Arnaud 
https://team.inria.fr/steep/files/2015/03/cours.pdf 


e Notes de cours d'Olivier Gaudoin 
https://www-1jk.imag.fr/membres/Olivier.Gaudoin/PMS.pdf 


e Notes de cours de Bernard Ycart 


https://toltex.u-ga.fr/SPLS 
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Supports de cours 


Des livres 


se 


D 


irobabilités 


Gilbert Saporta, Probabilités, analyse des données 
et statistique, Editions Technip, 2006. 
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Nicolas Gauvrit 


Statistiques 
Vous avezidit 


Nicolas Gauvrit, 
Vous avez dit hasard ?, 2014. 
Statistiques, méfiez-vous !, 2007. 


ENTEMEEMAnnIE EPS) EIDIONE 
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Partie | : Statistiques descriptives 
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@ introduction 


@ Bases de la statistique descriptive 
e Vocabulaire 
e Tableaux statistiques 
e Méfiez-vous des statistiques! Le paradoxe de Simpson 


(8 } Représentations graphiques 
e Histogrammes 
e Fonction de répartition empirique 


@ indicateurs statistiques 
e Indicateurs de localisation ou de tendance centrale 
e Indicateurs de dispersion ou de variabilité 


@ Corrélation et causalité 
e Régression linéaire 
e Exemples de corrélations 
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Introduction 


Définition de la statistique 


Définition : « Le mot statistique désigne à la fois un ensemble de 
données d'observations et l'activité qui consiste dans leur recueil, leur 
traitement et leur interprétation » (Encyclopedia Universalis) 


Étymologie : « De l'allemand Staatskunde, dérivé de l'italien statista 
(homme d'État, statiste), la statistique représentant l'ensemble des 
connaissances que doit posséder un homme d'État. » (1785) 
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Introduction 


Histoire de la statistique 


e Recensements en Chine au XXIII° siècle av. J.-C. ou en Égypte au 
XVIII av. J.-C, système de recueil se poursuivant jusqu'au XVIIS. 


e Rôle prévisionnel des statistiques au XVIII siècle avec la 
construction des premières tables de mortalité avec Antoine 
Deparcieux, l'Essai sur les probabilités de la durée de vie humaine 
(1746). 

e Rôle démographique au XIX® siècle, le Baron de Reiffenberg 
présentait en 1842 à l'Académie ses calculs rétrospectifs de 
population chez des peuples gaulois, d'après des chiffres donnés par 
Jules César dans sa conquête des gaules. 
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Introduction 
Histoire de la statistique mathématique 

e Premiers textes connus sur le calcul des hasards (ou des chances) au 
XVIS siècle avec Cardan et au XVII® siècle avec Galilée. 

e Début officiel avec Pascal, Fermat et Huyguens au XVIIS siècle. 

e Tournant au XVIIIS siècle avec Montmort (combinatoire), Bernoulli 
(loi des grands nombres) puis De Moivre et Laplace (traitement 
analytique des probabilités et théorèmes limites). 

e Théorie des ensembles et de la mesure par Borel et Lebesgue et 
calcul des probabilités par Lévy au XX siècle 

e Axiomatisation de la théorie des probabilités par Kolmogorov (1933). 


Pour aller plus loin : 
e Brigitte Chaput et al., Autour de la modélisation en probabilités, 
Histoire 81, 2005. 
e lan Hacking, The emergence of probability : À philosophical study of 
early ideas about probability, induction and statistical inference, 
Cambridge University Press, 2006. 
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Introduction 
Objectifs du cours 


But du cours : 
> faire quelques rappels et connaître le vocabulaire 
» savoir décrire et représenter un ensemble de données 
> vous réconcilier avec les probabilités et les statistiques … ? 


» comprendre le lien entre les deux 
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Introduction 


Divers domaines d'application 


e Economie, assurance, finance : études quantitatives de marchés, 
prévisions économétriques, analyse de la consommation des 
ménages, taxation des primes d'assurances et de franchises, gestion 
de portefeuille, évaluation d'actifs financiers, … 

e Biologie, médecine : essais thérapeutiques, épidémiologie, 
dynamique des populations, analyse du génôme, 

e Sciences de la terre : prévisions météréologiques, exploration 
pétrolière, … 

e Sciences humaines : enquêtes d'opinion, sondages, étude de 
population, … 

e Sciences de l'ingénieur : contrôle qualité, sûreté de 
fonctionnement, évaluation des performances, … 

e Sciences de l'information : traitement des images et des signaux, 
reconnaissance de forme et parole, machine learning, … 


Crédits : O. Gaudoin 
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Introduction 
But de la Statistique 


Les données sont entâchées d'incertitudes et présentent des variations 
pour plusieurs raisons : 


e le déroulement des phénomènes observés n'est pas prévisible à 
l'avance avec certitude 


e toute mesure est entâchée d'erreur 
e seuls quelques individus sont observés 
@: ::: 


— données issues de phénomènes aléatoires 
— intervention du hasard et des probabilités 


Objectifs : maîtriser au mieux cette incertitude pour extraire des 
informations utiles des données, par l'intermédiaire de l'analyse des 
variations dans les observations. 
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Introduction 


Deux classes de méthodes statistiques 


@ Statistique descriptive : elle a pour but de résumer l'information 
contenue dans les données de façon synthétique et efficace par : 


e Représentations graphiques 

e Indicateurs de position, de dispersion et de relation 

e Régression linéaire 
— permet de dégager les caractéristiques essentielles du phénomène 
étudié et de suggérer des hypothèses pour une étude ultérieure plus 
poussée. Les probabilités n'ont ici qu'un rôle mineur. 


@ Statistique inférentielle : elle a pour but de faire des prévisions et 
de prendre des décisions au vu des observations par : 


e Estimation paramétrique 
e Intervalles de confiance, tests d'hypothèse 


— Nécessite de définir des modèles probabilistes du phénomène 
aléatoire et savoir gérer les risques d'erreurs. 
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Probabilité vs. Statistique 


e la statistique repose sur l'observation de phénomènes concrets et 
utilise les probabilités comme outils d'analyse et de 
généralisation 

e la théorie des probabilités permet de modéliser efficacement certains 
phénomènes aléatoires et d'en faire l'étude théorique. 
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Probabilité vs. Statistique 


Le calcul des probabilités propose des modèles simplificateurs du 
comportement d'un phénomène 


e les données observées sont souvent imprécises. Le modèle 
probabiliste permet de représenter comme des variables aléatoires les 
déviations entre vraies" valeurs et valeurs observées. 


e la répartition statistique d'une variable au sein de la population est 
souvent voisine de modèles mathématiques proposés par le calcul 
des probabilités (ex : supposer que la durée de vie d'un composant 
electronique suit une loi exponentielle). 


Le calcul des probabilités fournit des théorèmes si le processus 
d'échantillonnage equiprobable des individus parmi la population est 
respecté. 
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Résumé de la démarche statistique 


@ Recueil des données = construction d'un échantillon 


@ Statistique exploratoire — formulation d'hypothèses sur la nature 
du phénomène aléatoires 


@ Choix d'un modèle probabiliste — test d'adéquation 

© Estimation des paramètres inconnus du modèle — construction 
d'estimateurs 

@ Prévision sur les observations futures — associer un degré de 
confiance 
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@ Bases de la statistique descriptive 
e Vocabulaire 
e Tableaux statistiques 
e Méfiez-vous des statistiques! Le paradoxe de Simpson 
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Vocabulaire 


e Faire de la statistique suppose que l'on étudie un ensemble d'objets 
équivalents sur lesquels on observe des caractéristiques appelées 
variables. 


e Le groupe ou l'ensemble d'objets équivalents est appelé la 
population. 

e Les objets sont appelés des individus. 

e En général, la population et trop vaste pour pouvoir être observée 
exhaustivement. On étudie alors la variable sur une sous partie de la 
population. On étudie alors un échantillon. 
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Vocabulaire 


On souhaite étudier un caractère X prenant ses valeurs dans Q, sur une 
population P. 


Exemple : si l'échantillon est un groupe de TD de MAP 201 … 


e un individu est un étudiant 
e la population peut être l'ensemble de étudiants de MAP 201, des 
L1, de Grenoble, de France etc. 


e les variables étudiées peuvent être le sexe, la taille, la moyenne 
d'année, le nombre de cafés consommés, etc. 
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Vocabulaire 


En général, on ne peut pas observer ce caractère sur tous les individus 
d'une grande population, mais seulement sur une sous-population de P 
de taille n. On notera alors : 


e la sous population : {h,...,i,.…., 1} un ensemble de n individus 
choisis au hasard dans P. 


e l'échantillon de données : x1, .…., x;, …, x les n valeurs observées du 
caractère X sur les individus de la sous-population. 


Deux problèmes se posent alors : 
@ Quelles informations sur le caractère X peut-on tirer de 
l'échantillon ? 
@ Quelle prévision pourrait on faire sur un individu non observé de P 
à partir des données observées x1,.…., xj, .…., Xn ? 
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Vocabulaire 


Chaque individu est décrit par un ensemble de variables X. Ces 
variables peuvent être classées selon leur nature : 


e variable qualitative s'exprimant par l'appartenance à une modalité. 
(Q={Homme, Femme}; Q={Rap, chanson française, classique, etc.} 

e variable quantitative, s'exprimant par des nombres réels, par exemple 
la taille des individus ou les résultats d'un examen. 

e On distingue les variables quantitatives discrètes lorsque Q est une 
suite finie ou infinie d'éléments de N (ex : Q = {1,2,3}; Q =N) 
des variables quantitatives continues si toutes les valeurs d'un 
intervalle de R sont acceptables. 
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Vocabulaire 


Concept clé en statistique : la variabilité, qui signifie que des individus 
en apparence semblables peuvent prendre des valeurs différentes. 
Exemple : 

Un processus industriel de fabrication ne fournit jamais des 


caractéristiques parfaitement constantes. 


L'analyse statistique a pour but d'étudier cette variabilité 
e en tenir compte pour prévoir de façon probabiliste le comportement 
d'individus non observés, 
e chercher à l'expliquer à l'aide de variables extérieures, 


e chercher à l'’augmenter dans le but de distinguer les individus entre 
eux. 
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Tableaux statistiques - variables discrètes ou quantitatives 


e nla taille de l'échantillon 
e k le nombre de modalités. 
e m;,i € [1,k] les modalités 
e n; le nombre d'occurence (l'effectif) de m; dans l'échantillon 
e et f; la fréquence correspondante. 
Par t=ehF=h nr El 
Exemple du lancer d'un dé 
5 =12,5.,6.45,42 1,6,5,1,2k n=1? 


mi1121/31415)6 
n 1213 0121312 


—= Vérification empirique qu'un dé est équilibré ? 
— Simulation informatique d'une loi uniforme ? 
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À vos boitiers de vote! 


Mettez le boitier sur le canal 41 : 
Pressez le bouton « Channel » puis tapez « 41 » 


ResponseCard RF LCD 


6 @ © 
© ® © 
230 

) ® 


www.TurningTechnologies.com 
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À vos boitiers de vote! 


Choisissez au hasard un chiffre entre 1 et 9 


1,2, 3, 4, 5, 6,7,8,9 
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À vos boitiers de vote! 


Résultats du diagramme en bâtons 
e Faible choix des valeurs extrêmes 1 et 9? 


e Choix majoritaire du chiffre 7 ? 


— L'être humain est en général un piètre générateur de hasard. 


Autre test : donnez au hasard une série de 200 « zéro ou un » à la main 
puis avec l’aide d'une pièce par « pile ou face ». 


— Repérable au nombre de « pile > (ou « face ») consécutifs et au biais 
d'alternance sous-jacent. 
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Tableaux statistiques - variables discrètes ou quantitatives 


modalité effectif fréquence 
m; nb personnes ni f. en pourcentage 

1 7 381 150 31.0 
2 7 404 960 31.1 
3 3 857 246 16.2 
4 3 285 802 13.8 
5 1 309 559 5.5 

6 et plus 571 444 2.4 


Figure: Le recensement de 1999 donne la répartition des n — 23810161 ménages, 
selon la variable X nombre de personnes du ménage 
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Tableaux statistiques - variables continues 


On regroupe les valeurs en k classes d'extrémité a0,a1,...,aKx, et on 
note pour chaque classe [2;_1, a;] l'effectif n;, la fréquencef.. 


modalité effectif fréquence 
classes d'âge n; f; en pourcent 
[0,4] 2 986 925 20.77 
[5,9] 3 629 294 25.24 
[10,14] 3 833 120 26.65 
[15,19] 3 932 101 27.34 


Figure: Le recensement de 1999 donne la répartition des n — 14381440 
personnes moins de 20 ans, selon la classe d'âge 
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Tableaux statistiques - fréquences cumulées 


modalité x; | fréquence f; | fréquence cumulée F; 
1 31.0 31.0 
2 31.1 62.1 
3 16.2 78.3 
4 13.8 92.1 
5 5.5 97.6 
6 et plus 24 100 


Figure: recensement de 1999 (a) répartition des ménages, selon le nombre de 
personnes du ménage (b) fonction de répartition empirique 
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Tableaux statistiques - tableaux de contingences 


femmes | hommes total 

agriculteurs exploitant 204 209 437 958 1.3 % 

artisants, commerçants 484 443 1 174 609 3.4 % 

cadres et professions intel. sup. || 1 101 537 | 2 063 798 6.6 % 

professions intermédiaires 2 771948 | 2 990 937 11% 

employés 5 973 956 | 1 835 135 16.2 % 

ouvriers 1 426 472 | 5 635 270 15.8 % 

retraités 5 434 200 | 5 200 243 22.1 % 

autres sans activité prof. 7 593 554 | 3 740 108 23.6 
total 52 % 48 48 068 377 


Figure: recensement de 1999 - population de 15 ans ou plus par sexe et 


catégorie socioprofessionnelle 
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À vos boitiers de vote! 


Votre pouvoir d'achat a diminué de 12% en 2017 mais remontera 
de 12% en 2018. Votre pouvoir d'achat en 2018 sera : 


A) Plus important qu'en 2017 
B) Identique à 2017 

C) Plus faible qu'en 2017 

D) La réponse D 
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Méfiez-vous des statistiques | 


Variations relatives 


Votre pouvoir d'achat a diminué de 12% en 2017 mais remontera 
de 12% en 2018. Votre pouvoir d'achat en 2018 sera : 


A) Plus important qu'en 2017 
B) Identique à 2017 

C) Plus faible qu’en 2017 
D) La réponse D 


Une quantité x subissant une diminution de p% puis une augmentation 
de p% s'écrit 


xX(1—p)x(1+p)}=xx(1-p)< x 


— Pour p — 12% on obtient une baisse d'environ 1,5%. 
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Méfiez-vous des statistiques | 


Variations relatives et absolues 


La dette de la France, qui avait augmenté de 15% l'an passé, n’a 
augmenté cette année que de 14%. 
Le gouvernement se félicite de sa gestion exemplaire. 


Crédits : N. Gauvrit 
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Méfiez-vous des statistiques | 


Variations relatives et absolues 


La dette de la France, qui avait augmenté de 15% l'an passé, n’a 
augmenté cette année que de 14%. 
Le gouvernement se félicite de sa gestion exemplaire. 


e Dette de départ : 100 M€ 
e Déficit 1°© année : 15% x 100 — 15 M€ = dette = 115 M€ 
e Déficit 2°"e année : 14% x 115 — 16,1 M€ > 15 M€ 


Augmentation du déficit : de 15 milliards d'euros l’an passé il 
dépasse cette année 16 milliards d'euros! 
L'opposition déplore la gestion du gouvernement. 


« Les statistiques ont une particularité majeure : elles ne sont jamais les 
mêmes selon qu'elles sont avancées par un homme de gauche ou par un 
homme de droite >» — Jacques Maillot. 
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Méfiez-vous des statistiques | 


Variations relatives et absolues 
Le syndicat d'une entreprise déclare : 


Les ouvriers touchaient 200€ mensuels en 2017, on leur offre 
désormais 180€, soit une baisse de 10%. Les cadres gagnaient 
l'an dernier 2000€ mensuels, et aujourd’hui 1800€, soit là encore 
une baisse de 10% 


La patron de l'entreprise affirme : 


L'an dernier, le salaire mensuel moyen était de 363,64€. Il passe 
cette année à 916,34€, soit une augmentation de 152%! 


« Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges 
et les statistiques » — Mark Twain. 


Crédits : N. Gauvrit 
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Méfiez-vous des statistiques | 


Variations relatives et absolues 


employés 
ouvriers | cadres 
salaire | 200€ | 2000€ 
effectif | 1000 100 
salaire 180€ | 1800€ 


2017 


2018 effectif 600 500 
200 -+ 180 : 
{ 2000 —> 1800 baisse de 10% 
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Méfiez-vous des statistiques | 


Variations relatives et absolues 


employés 
ouvriers | cadres 
salaire 200€ | 2000€ 
effectif | 1000 100 
salaire 180€ | 1800€ 
effectif 600 500 


2017 


2018 


n 0 
2000 + 1800 — baisse de 10% 


200 x 1000 + 2000 x 100 
1100 


180 x 600 + 1800 x 500 
1100 


{ 200 — 180 


= 363,64 
= augmentation de 152% 


— 916,34 


évolution du salaire moyen À évolution moyenne du salaire 
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Méfiez-vous des statistiques | 


Variations relatives et absolues : comparer des carottes à des potirons 


Plan Satellite 


Pays: France 
Demande acceptées: 975 


ME. 2 
+ 
Mer 
rhénienne À | 
rurqui 
D : b] 
Google Données cartographiques ©2018 Google, INEGI, O! 


RION-ME | Conditions d'utilisation 
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Méfiez-vous des statistiques | 


Variations relatives et absolues : comparer des carottes à des potirons 


Plan Satellite 


Pays: France 


Pourcentage de demandes acceptées: 8.61 


Ukraine 


hénienne 


Google 


Données cartographiques ©2018 Google, INEGI, ORION-ME | Conditions d'utilisation 
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Paradoxe de Simpson 


Taux de guérison moyen d'une tumeur : médicaments vs. chirurgie 


Taux de guérison 


a ns 


Crédits : D. Louapre (ScienceEtonnante) 
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Paradoxe de Simpson 


Taux de guérison de la méthode suivant la taille de la tumeur 


Médicaments Cnirurgie 
at 72 7 % 


Grosses tumeurs 
(Zen) 


Vetites tumeurs 
(£2 cm) 


Crédits : D. Louaprre 
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Paradoxe de Simpson 


À vos boitiers de vote! 


Médicaments Chirurgie 


1 % C3 % 


Grosses tumeurs 


Vetites tumeurs 


TOTAL D > 


Selon vous, quel traitement marche le mieux ? 


A) Médicaments 
B) Chirurgie 
Crédits : D. Louaprre 
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Paradoxe de Simpson 


Résultats 


Médicaments Chirurgie 


HA 4 3 % 
Grosses Tumeurs “2 . 7) 


9 % 10 % 


11 


Vetites tumeurs 


16 4 tb 


TOTAL D D | 


Selon vous, quel traitement marche le mieux ? 


A) Médicaments 
B) Chirurgie 
Crédits : D. Louaprre 
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Paradoxe de Simpson 
Kesako ? 


Médicaments 


1 % 
Grosses Tumeurs - 


92 4 


Vetites tumeurs ED 


TOTAL 


Deux observations importantes sur les grosses tumeurs : 
@ Elles ont des taux de guérison plus faible que les petites tumeurs 
@ Elles donnent plus souvent lieu à une intervention chirurgicale 


Kévin Polisano Cours de Statistiques de L1 — MAP 201 


44/229 


Paradoxe de Simpson 


Gare aux facteurs de confusions ! 


Médicaments Chirurgie 


HA 4 3 % 
Grosses Tumeurs “2 . 7) 


9 % 


11 


Vetites tumeurs 


16 4 tb 


TOTAL D D | 


taille tumeur 


| l 


traitement —+ guérison 
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Paradoxe de Simpson 


En résumé 


Pour que le paradoxe se produise, il faut 2 ingrédients : 

e Une variable qui influe sur le résultat final (le groupe), et qui 
n'est pas forcément explicitée au départ. On appelle cela un facteur 
de confusion. Il s'agit de la taille des tumeurs dans cet exemple. 

e Une distribution non homogène de l'échantillon. Dans cet 
exemple la chirurgie est plus souvent adoptée sur les grosses 
tumeurs, et les médicaments sur les petites. 


Crédits : D. Louaprre 
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(8 ] Représentations graphiques 
e Histogrammes 
e Fonction de répartition empirique 
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Représentations graphiques 


Aperçu des méthodes abordées 


Différents type de représentations graphiques : 


Diagramme en bâtons et en camembert 
Histogramme des fréquences 
Graphique des fréquences cumulées (= fonction de répartition) 


Boite à moustache 
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Représentations graphiques 


Variables discrètes - Diagrammes en bâtons 


modalité | fréquence 


m; nb pers. | f; (en %) #] 
1 31.0 8. 
À 31.1 | 
3 16.2 | 
4 13.8 ? 
5 5.5 0 
6 et plus 2.4 . ] 


Diagrammes en bâtons : à chaque modalité correspond un rectangle 
vertical dont la hauteur est proportionnelle à la fréquence relative de la 
modalité. 
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Représentations graphiques 


Variables discrètes - Diagrammes sectoriels (ou en camemberts) 


modalité | fréquence 
m; nb pers. | f; (en %) 

1 31.0 
2 31.1 ; 
3 16.2 à 
4 13.8 
5 5.5 à 

6 et plus 2.4 | 


Diagrammes sectoriels (ou en camemberts) : à chaque modalité 
correspond un secteur de disque dont l'aire est proportionnelle à la 
fréquence relative de la modalité. 
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Histogramme 

Variable continue 
Quand la variable étudiée est continue, les représentations du type 
diagramme en bâtons sont sans intérêt, car les données de x sont en 
général toutes distinctes, donc les effectifs tous égaux à 1. 


— La représentation par histogramme consiste à regrouper les 
observations « proches » en classes : 


On trie le vecteur x (noté alors x*), et on partitionne l'intervalle ]ao, ax] 
(ao < xÏ, ak > x) en k intervalles Jai_1, ai] appelés classes. La largeur 
de la classe i est notée h; — a; — a;_1 (et h — (ax — ao)/k si pas fixe). 


Définition de l'histogramme 


L'histogramme est la figure constituée de rectangles dont les bases sont 
les classes et dont les aires sont égales aux fréquences de ces classes. 
Autrement dit, la hauteur du i°"® rectangle est n;/nhi. 
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Histogramme 


Variable continue : durée de vie d'ampoules 


x = 91.6,35.7, 251.3, 24.3,5.4,67.3,170.9,9.5, 118.4,57.1 
x* = 5.4,9.5,24.3,35.7,57.1, 67.3, 91.6, 118.4, 170.9, 251.3 


e Choix du nombre de classes k : k & 1 + log, n (règle de Sturges) 
e Choix des bornes pour ao et ax : xŸ + 0.025(x% — x*) 
e Largeur des classes (fixe) h = (ax — &)/k 


n=10, k=5, 49 = —-0.74 & 0 et a = 257.4 & 260, h = 260/5 — 52. 


classes ]a;_1,a;] | ]0,52] ]52,104] ]104,156] ]156,208] ]208,260] 
effectifs n; 4 3 1 1 1 

fréquences n;/n | 40% 30% 10% 10% 10% 

hauteurs n;/nh | 0.0077  0.0058 0.0019 0.0019 0.0019 


Crédits : O. Gaudoin 
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Histogramme 


Variable continue : durée de vie d'ampoules 


classes ]a_1,4;] | 10,52] ]52,104] ]104,156] ]156,208] ]208, 260] 
effectifs n; 4 3 1 1 1 

fréquences n;/n | 40% 30% 10% 10% 10% 

hauteurs n;/nh | 0.0077  0.0058 0.0019 0.0019 0.0019 


Frequ 
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Histogramme 


Variable continue : durée de vie d'ampoules 


classes ]a;_1,a;] | ]0,52] ]52,104] ]104,156] ]156,208] ]208, 260] 
effectifs n; 4 3 1 1 1 

fréquences n;/n | 40% 30% 10% 10% 10% 

hauteurs n;/nh | 0.0077  0.0058 0.0019 0.0019 0.0019 


0.008 
nl 


0.006 
1 


0.004 
1 


0.002 
1 


0.000 
L 
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Histogramme 


Mode de l'histogramme 


classes ]a;_1,a;] | 0.52] ]52,104] ]104,156] ]156,208] ]208,260] 
effectifs n; 4 3 1 1 1 

fréquences n;/n | 40% 30% 10% 10% 10% 

hauteurs n;/nh | 0.0077  0.0058 0.0019 0.0019 0.0019 


0.008 
ñ 


0.006 
ñ 


0.004 
1 


0.002 
1 


0.000 
L 
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Histogramme 


Approximation de la densité 


classes ]a;_1,a;] | ]0,52] ]52,104] ]104,156] ]156,208] ]208, 260] 
effectifs n; 4 3 1 1 1 

fréquences n;/n | 40% 30% 10% 10% 10% 

hauteurs n;/nh | 0.0077  0.0058 0.0019 0.0019 0.0019 


A 


fonction escalier : f = ni/nh 


Jai-1,a; 


aire rect. i = m/n= f#. F(x)ax 
n;/n = % obs. dans ]a;_1, a; 
+ 
proba qu'une obs. soit dans ]a;_1, a;] 
a; r T T T T 1 
P(a;-1 < X < a) — Je f(x)dx 0 50 +00 150 200 250 


0.000 0.002 0.004 0.006 0.008 0.010 0.012 
L 1 1 n 
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Histogramme 


Polygone des fréquences 


classes ]a;_1,a;] | ]0,52] ]52,104] ]104,156] ]156,208] ]208, 260] 
effectifs n; 4 3 1 1 1 

fréquences n;/n | 40% 30% 10% 10% 10% 

hauteurs n;/nh | 0.0077  0.0058 0.0019 0.0019 0.0019 


D: 
0.004 0.006 0.008 
1 1 


0.002 
1 


0.000 
L 
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Histogramme 


Densité (continue) approchant l’histogramme : R density. 


classes ]a;_1,a;] | ]0,52] ]52,104] ]104,156] ]156,208] ]208, 260] 
effectifs n; 4 3 1 1 1 

fréquences n;/n | 40% 30% 10% 10% 10% 

hauteurs n;/nh | 0.0077  0.0058 0.0019 0.0019 0.0019 


0.008 
ñ 


0.006 


0.004 


0.002 


0.000 
L 
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Histogramme 


Classes de même effectif 


classes ]a;_1,a;] | ]0,17] ]17,46] ]46,79] 7]79,145] ]145,260] 
effectifs n; 2 2 2 2 2 

fréquences n;/n | 20% 20% 20% 20% 20% 

hauteurs n;/nh | 0.0118 0.0069  0.0061  0.0030 0.0017 


0.000 0.002 0004 0.006 0.008 0.010 0.012 
L nl 
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Ne passez pas sous les échelles 


Graphique à la loupe 


155 
150 

158 

| 

235 + 


FPFISESÉSÉSSESSESSÉSSE 


D | 


CC 


Crédits : Cortecs (zététique) 
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VOUS VOXEZ Bien 
QW& LE CHÔMAGE 
Gr EN BiSsE | 


CHÔMAGE os - 


OCTOBRE 2011 +34 400 vemanoeurs D'EmPLoN 


! DR 2 .2 814900 
25 == 


Nov Déc Jan Fév Mars Avr Mal Juin Juil Aoû Sep Oct 
JT 20h TF1 28 novembre 2011 


DEMANDEURSM k 
D'EMPLOI 


2814900 1, 


- 6 


Crédits : Cortecs (zététique) 


Polisano 


Ne passez pas sous les échelles 
Surtout quand il n'y a pas d'échelle! 


DEMANDEURS 
D'EMPLOI 


2814900 [1 4 


… 08 


Crédits : Cortecs (zététique) + xkcd — https://xkcd.com/833/ 


MAVBE YOURE RGHT. 
; Lie oam ao GAME vo. 
KL CAN DO 
OUR RELATIONSHIP Re | 
r HUH. Éd 
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Histogramme et densité 


Approximation de la densité 
e L'histogramme de même effectif approche une densité exponentielle 
f(x) = Xe" (en vert) 
e || en va de même pour son polygone des fréquences (en bleu) 


e L'approximation continue de la densité (en rouge) n'est pas efficace 
sur peu de données 


Density 
L i 1 i i 


0.000 0.002 0.004 0.006 0.008 0.010 0.012 0.014 


Kévin Polisano Cours de Statistiques de L1 —- MAP 201 63/229 


Histogramme cumulé et fonction de répartition 


Approximation de la fonction de répartition 


e Au lieu des effectifs n; considérer les effectifs cumulés m; = 5;_,n 


e L'histogramme cumulé construit approche la fonction de répartition 
F(x) =1-e "* 


e Il en va de même pour son polygone des fréquences cumulées 
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Cumulative iPhone sales 


Tim Cook présente les ventes d'iPhone cumulées 


Kévin Polisano 


Cumulative iPhone sales 


Ventes trimestrielles 


Si Tim Cook présentait les ventes d'iPhone trimestrielles 


Kévin Polisano 


Fonction de répartition empirique 
La fonction de répartition empirique F, associée à un échantillon 
x1,...xn est la fonction définie par : 
1 n 0 si x < xj 
VxER, Fax) = . >, Lixex = À ES <Xx< x}; 
i=1 1six > x; 


Figure: Fonction de répartition empirique de x (ampoules) approchant F 
Crédits : O. Gaudoin 
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Fonction de répartition candidate ? 


Proposition 


Soit F la fonction de répartition d'une loi de probabilité, dépendant d'un 
paramètre inconnu 6. S'il existe des fonctions h, g, a et B telles que 


VxER,  h[F(x)] = a(8)g(x) + (0) 
alors le nuage des points 


(g(x;),h(i/n)), ie {1,...,n} 


est le graphe de probabilités pour la loi de fonction de répartition F. 
Si les points du nuage sont approximativement alignés, on admettra que 
F est une fonction de répartition plausible pour les observations. 


Preuve : h[F,(x*)] = h(i/n) & h[F(x)] = a(0)g(x*) + 5(0) 


Crédits : O. Gaudoin 
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Test sur la durée de vie des ampoules 


e On suppose F(x) = 1 — e—* 


. En considérant h(y) = In(1 — y) : 
h[F(] = nf — F(x)) = —àx 
e Le graphe de probabilité pour F est le nuage de points 
(x',In(1—i/n)), ie{1,...,n-—1} 


e La droite qui approche ce nuage de point est y — —Ax 


log(t - seq(1:9)/10) 


Crédits : O. Gaudoin 


sort(o[1:9] 
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@ indicateurs statistiques 
e Indicateurs de localisation ou de tendance centrale 
e Indicateurs de dispersion ou de variabilité 
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Indicateurs de localisation (ou de tendance centrale) 


La moyenne empirique 


Définir une valeur autour de laquelle se repartissent les observations 


e Moyenne empirique 


Valeur qu'auraient tous les individus s'ils prennaient la même valeur 


Durée de vie moyenne des ampoules 


On trouve X19 = 83.15 heures en moyenne. 


De plus pour une loi exponentielle À & S = 0.012. 
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Indicateurs de localisation (ou de tendance centrale) 


Valeurs extrêmes 


e Valeurs extrêmes 


Un indicateur de localisation à partir de xŸ = min x; et x? — max x; 
est 


2 
Exemple des ampoules : on trouve 128.35 heures. 
e Mode 


Valeur pour laquelle l'histogramme des fréquences presente un 
maximum. Modalité la plus représentée dans l'échantillon. 


Valeurs aberrantes 

Des valeurs exagéréments grandes ou petites par rapport aux autres 
valeurs de l'échantillon peuvent fortement influer sur la moyenne qui 
est sensibles aux extrêmes. 
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Indicateurs de localisation (ou de tendance centrale) 


La moyenne salariale dans certains médias 


JObLSE 
Le Belge gagne en moyenne 3 200 euros bruts par 
mois 


IRTLINFO EI LE REVENU MOYEN DES BELGES EST EN AUGMENTATION 


Le revenu moyen net annuel des Belges s'élevait à 17.684 euros en 2014, soit 665 euros de plus que 
l'année précédente, ressort-il vendredi des dernières données disponibles du SPF Economie. Par 


mois, cela fait dont un salaire de 1.473 euros. 


La moyenne seule ne permet pas de résumer correctement la 
distribution des salaires à l'échelle d'un pays! 
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Kévin Polisano 


ALBERT OSCAR MARINE MAX ÉMILIE DR ALBERT OSCAR MARINE MAX ÉMILIE 


US, E''OnRR, 


CŒTEMPETEMENTENENNTE 6500 c D CIE SONDE MSN EEE IDE 
| Le 
le moyenne = 2 800 € [ moyenne = 3540 € | 


Crédits : Les statistiques expliquées à mon chat 
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La médiane 


e Médiane : valeur partageant la population en 2 effectifs égaux. 
 — X(n+1)/2 si n impair 
É X5y2 À Xpp241)/2 Si n pair 


e Graphiquement peut se lire sur la courbe de F : 
e Variable continue 
Qo.s : F(qo.5) = 0.5 


e Variable discrète : plus petite valeur où F franchit le palier 50% 


aus: F(9.)<05, F(os)=05 


Exemple de l'ampoule : 10 = (57.1 + 67.3)/2 = 62.2 heures. 
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20% 20% 


3 209 4 130 
ge quintile 


(ecquintile Dane quintile 


07/0 
TOP TOP TOP TO ATOS 


| 1 3209 3575 4130 


2220 2440 262! 
salaire médian 
: valeurs partageant l'échantillon 


ordonné en un certain nombre de parties de même effectif. 


Cp + Xnp+1)/2 si np entier 
1 Sinon 


e 


Vp E [O, LL Qn,p — x je 
np 


Exemple des ampoules : ÿ; 174 = x3 = 24.3, ÿ,3,a — xÿ — 118.4 (uartiles). 
Pour p — 1/2 on retrouve la médiane empirique X; — à, 1,2. 
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Boite à moustache 


0 50 100 150 200 250 
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Indicateurs de dispersion (ou de variabilité) 


La variance empirique 


e Variance empirique 


2 1 1 : 
(se — DIRE F2 > mimi 
Î= 


1 


é o = ) x? — x? (moyenne du carré - carré de la moyenne) 


Écart type empirique : a, (racine de la variance) 


Ox 


Coefficient de variation empirique : cv, = % (sans dimension) 


Dans R var(x) donne o/? = 


n 2 . = 
10% (variance sans biais) 


Kévin Polisano Cours de Statistiques de L1 —- MAP 201 78/229 


Indicateurs de dispersion (ou de variabilité) 
L'écart type empirique 
e Écart type empirique : o, (racine de la variance) 
L'écart type sert à mesurer la dispersion d'un ensemble de données. 
Plus il est faible, plus les valeurs sont regroupées autour de la 
moyenne. 


Répartition des notes d’une classe 


Plus l'écart type est faible, plus la classe est homogène. À l'inverse, s’il 
est plus important, les notes sont moins resserrées. Dans le cas d'une 
notation de 0 à 20, l'écart type minimal est 0 (notes toutes identiques), 
et peut valoir jusqu'à 10 si la moitié de la classe a 0 et l'autre moitié 20 
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Caractérisation des indicateurs 


L'erreur commise en résumant l'observation x; par c peut être quantifiée 
par une distance (ou écart) entre ces deux valeurs d(x;, c). 
Un bon indicateur doit minimiser l'erreur moyenne e — 157 d(x, c). 


e Écart quadratique : e = 57%, (x; — c)?, minimal quand 


0 RD) -9=0ec=x 
i=1 
e Écart absolu : e — ir Ix; — c|, minimal quand c = X, 


e Écart sup : e = Esup?_, |x; — c|, minimal quand c = (x + x)/2 
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@ Corrélation et causalité 
e Régression linéaire 
e Exemples de corrélations 
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Rappels : indices de localisation, dispersion, relation 
Pour un nuage de points (x, y:), Vi € {1,...,n} on définit : 
e Les moyennes empiriques (localisation) 


Le le 
==) *;, ÿn= =D y 
i=1 i=1 


e Les variances empiriques (dispersion) 


le Le 
2 . EN2 2 -2 
de. (x — Xn) =. XÉ — x 
j=1 I=1 
le LE 
2 = \2 2 —2 
Na" (Yi — ÿn) Th y; — Yn 
i=1 i=1 


1 - C 
Oxy — = SC — À (M — ÿn) —= us = Xnÿn: By — — 
i=1 i=1 REY 
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Régression linéaire 
Le but est de trouver la droite « la plus proche » d'un nuage de points 


log(i - seg(1:9)/10) 


T T T 
0 50 100 150 


sort(x)[t:9] 


L'idée consiste à estimer y; par ÿ; = B1x; + Po en choisissant 51 et So qui 
minimise l'erreur quadratique moyenne : 


1€ 1€ 
2 ñ.\2 2 
= -d (5%) = . (vi — Bixi — Bo) 
i=1 i=1 
Crédits : Parag Radke 
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Régression linéaire 
La droite y = B1x + Bo qui minimise l'erreur quadratique moyenne : 


M OL. > 2% 
Bi = —: Bo = ÿn — Xn—> 
OX OX 


log(i - seq(1:9)/10) 


T T T 
0 50 100 150 


sonel[1:9] 


Taux de décroissance de la loi exponentielle des ampoules 


La régression linéaire sur le graphe de probabilité fournit : 


Crédits : O. Gaudoin Bi — —0.01311, Bo — —0.03484 
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Cum hoc ergo propter hoc 


Corrélation 


Deux événements (appelons les X et Y) sont corrélés si l'on observe une 
dépendance, une relation entre les deux. Par exemple, le nombre de 
cheveux d'un homme a tendance à diminuer avec l'âge : âge et nombre 
de cheveux sont donc corrélés. 


Corrélation ou causalité ? 


Une erreur de raisonnement courante consiste à dire : « X et Ÿ sont 
corrélés, donc X cause Y ». On confond alors corrélation et causalité car 
en réalité, il se pourrait aussi que : 


e Ÿ cause X 
e X et Ÿ aient une cause commune Z 


e X et Ÿ soient accidentellement liés mais n'aient aucun lien de 
causalité. 


Crédits : Cortecs (zététique) 
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Cum hoc ergo propter hoc ME 14 
Effet cigogne à ut 
Par exemple, dans les communes qui abritent des cigognes, le taux ae 
natalité est plus élevé que dans l'ensemble du pays. Conclusion : les 
cigognes apportent les bébés! Voici une explication plus probable : les 
cigognes nichent de préférence dans les villages plutôt que dans les 
grandes agglomérations, et il se trouve que la natalité est plus forte en 
milieu rural que dans les villes. 


HuH? VOURE NOT... THERE ARE 50 
MANY PROBLEMS WITH THAT. 
CELL PHONES CAUSE CANCER. \Eu, TE go JUST TO GE SAFE, UNIL 


AMAT RS THE WHO THNKAG? | 2 TORL L SE MORE DATA TM 
ni GOING To ASSUME CANCER 
CAUSES CELL PHONES. 


Crédits : Cortecs (zététique) + xkcd — https://xkcd.com/925/ 
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Bonne Saint-Valentin... 


Saint Valentin 2017: Il paraît que le 
fromage est aphrodisiaque ! 


« Après le gingembre et le chocolat, un petit nouveau vient d'entrer dans 
le cercle très prisé des aliments aphrodisiaques : le fromage. Oui, vous 


avez bien lu. » 
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Bonne Saint-Valentin... 


FOOD LIFE O) 


Saint Valentin 2017: Il paraît que le 
fromage est aphrodisiaque ! 


« c'est bien ce que révèle le récent sondage réalisé par le réseau social 
Skout, également site de rencontres, mené sur 4600 personnes. 
interrogées sur leur consommation de fromage et la fréquence de leurs 
rapports sexuels, l'étude aurait démontré une forte corrélation. Oui, 32% 
des mangeurs de Grilled Cheese (ce sandwich grillé au fromage dont 
raffolent les Américains) feraient l'amour en moyenne 6 fois par mois. » 
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Bonne Saint-Valentin... 


Exercice : quelle(s) critique(s) formuleriez-vous à l'égard de ces statistiques ? 


Vo 
of adults surveyed say 
they “love” grilled cheese. 


% 
of adults surveyed say 
they “love” grilled cheese. 


Grilled 

cheese 

lovers 

get more action 
in the bedroom! 


32° 


Of people who love grilled 
cheese ha at least six 
times a month. 


27° 


Of people who don't 
care for the sandwich. 
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People who 


love grilled 
cheese > 
are more 


charitable. 


81” 


Of people who love grilled 
cheese say they have donated 
their time, money or food to 
those in need. 


Oniy 66% of psople who 
disiike grilled che: y they 
are as generous. 
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Grilled 
cheesé 
lovers ( 

are more 
adventurous 
and more 
likely to 
travel. 


84" 


Of grilled cheese fans 
love to travel 


78” 


of those who don't 
care for the sandwich. 
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Nombre de personnes handicapées décédées d'une chute de leur fauteuil 
corrélé avec 
La consommation de fromage par habitant 


People who died by falling out of their wheelchair 
Per capita consumption of cheese (US) 


2001 2002 2004 2005 2006 2007 


Upload this image to imgur 


2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 


a Pre 154 157: 209 : 274 360 356 3774) 392) 4718 1426 


pr acnuneton cesse (5 2018; 3011305: 30.6: 31.3/131:7 32-6133 1132708278 


Pounds (USDA) 


Correlation: 0.931497 


Crédits : Tyler Vigen — http://www.tylervigen.com/spurious-correlations 
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Hope it helps 


Crédits : xkcd — https://xkcd.com/552/ 
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CQFR : Ce Qu'il Faut Retenir 


CQFR 
e Corrélation causalité 


e La statistique peut être comme la langue d'Esope la meilleure ou la 
pire des choses. Il convient de se méfier des pièges qu'elle recèle tout 
en se servant de ses résultats. 


e Les représentations graphiques des données statistiques permettent 
une analyse visuelle de la répartition des données. 

e Les indicateurs de localisation, de dispersion et de relation 
permettent de les quantifier et de résumer l'information. 


e Ces deux outils suggèrent une caractérisation de la loi statistique 
sous-jacente et donc des modèles théoriques plausibles. 
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Et après ? 


Pour aller plus loin dans l'analyse et la généralisation 


on a besoin d'outils probabilistes 


Suite au prochain épisode … 
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Partie Il : Introduction à la théorie des 
probabilités 
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@ introduction 


@ Rappels de probabilité 
e Axiomatique 
e Conditionnement et indépendance 


@ Variables aléatoires 
e Définitions discrètes et continues 
e Fonction de densité et de répartition 
e Espérance et variance 
e Lois usuelles 


@ Théorème limites 
e La loi des grands nombres 
e Théorème limite central 
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@ introduction 
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@ Rappels de probabilité 
e Axiomatique 
e Conditionnement et indépendance 
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Modéliser une expérience aléatoire 


1) Choix de l'univers 


Expérience : On lance deux dés, non pipés et identiques. 


e On note l'univers des possibles Q l'ensemble des résultats possibles 

de l'expérience. Q dépend de l'usage de l'expérience. 

Exemples : on note les 2 chiffres obtenus 

O1 = {(1,1),(1,2),(1,3),...}; o = {2,3,...12} si on s'intéresse 
à la somme des chiffres des 2 dés, … 

e On note évènement À une proposition relative au résultat de 
l'expérience 
Exemples : j'ai tiré un 3, la somme des points est égale à 7, la 
somme est supérieur a 10, etc. 

e On note une tribu À l'ensemble des évènements (Q9 € 4, S € À) 
inclus dans l'ensemble des parties de P(Q), possédant une certaine 
structure (d'algèbre) : pour tout À € A le complémentaire A° € A 
et À est stable par réunion finie ou dénombrable. 
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Modéliser une expérience aléatoire 


2) Choix de la mesure de probabilité sur cet univers/cette tribu 


e On appelle loi de probabilité sur (Q,.4) l'application : 
P:A+- [0,1] telle que 


P(Q) = 1 


+00 
P U À; | = ÿ_P(A;) pour des évènements incompatibles 
i>0 i=0 
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Modéliser une expérience aléatoire 


Espace probabilisé 


Une probabilité en mathématiques présuppose : 


Deux ingrédients indispensables 
@ Le choix de l'univers et d'une tribu modélisant l'expérience aléatoire 


@ Le choix de la mesure de probabilité sur cet univers/tribu 


L'espace ((,.4, P) est appelé espace probabilisé. 


Nota Bene : en faisant ces choix on « modélise » le phénomène 
aléatoire, c'est-à-dire qu'on émet des hypothèses quant à sa nature, 
permettant ensuite de calculer la probabilité d'évènements sur cette base. 
La branche des mathématiques dévouée au choix de la mesure de 
probabilité, donc au choix du modèle, est la statistique. 
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Modéliser une expérience aléatoire 
Le cas du lancé de 2 dés 
Supposés non pipés chaque face des dés a même chance d'apparition, 
mais selon le choix de l'univers le calcul de la probabilité de l'évènement 
A = « la somme des dés est égale à 4 » va être différent. 
e Si Q1 = {(1,1),(1,2),(1,3),...}, on est en situation 
d'équiprobabilité et la probabilité P1 sur Q1 est prise uniforme : 


P(f = 2e VO) € {5,67 


P1(A) = P1[{(1,3), (2,2), (8,1)} = nue = _ _ Fe 


e Si Q; — {2,3,...12}, on est plus en situation d'équiprobabilité, en 
effet P({2}) = 1 (cas unique où on obtient deux 1) et 
= 3, CA) = À 
AA EAN Gard) — 11 


— Cf. Paradoxe de Bertrand pour le choix crucial de l'univers. 
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Modéliser une expérience aléatoire 
L'interprétation de la probabilité est ensuite suspendue 
La probabilité d'un évènement peut se comprendre soit : 
e De manière « fréquentiste » : c'est le pourcentage de fois où 
l'évènement se produit si on répète indéfiniment la même expérience. 
e De manière « subjectiviste » : c'est alors une mesure subjective (un 
degré de croyance) dépendant du contexte et de la vraisemblance de 
l'évènement. 


« On ne peut guère donner une définition satisfaisante de la probabilité. 
La définition complète de la probabilité est donc une sorte de pétition de 
principe » (Henri Poincaré) 


Nota Bene : Les mathématiques s'exonèrent de ces considérations 
métaphysique par l'axiomatisation de Kolmogorov. Néanmoins la théorie 
des probabilité est « robuste » au sens où ces axiomes permettent de 
démontrer la loi des grands nombres, qui fait le lien avec l'approche 


fréquentiste, ce qui justifie a posteriori le cadre développé. 
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Propriétés découlant des axiomes des probabilités 


Une probabilité P(A) est définie sur un évènement À 


e P(Q)=1 
e P(S)=0 
e O<P(A)<1 


o P(A)=1-P(A) 
e P(A) < P(B) si AC B 


e P(AUB)=P(A)+P(B) -P(ANB) 


o P(UA;) < ÿ_-P(A;) 
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Probabilités conditionnelles 


La probabilité conditionnelle d'un évènement À sachant un évènement 
B dénote la probabilité de À dans le cas où B est réalisé, notée 
P(A]|B), et définie par : 
P(ANB) 
PB(A) :=P(AIB) := ——— 
On a alors : 


P(A NB) = P(A|B) P(B) =P(B|A) P(A) 


Remarque : P(AN B) est symétrique, P(A]| B) ne l'est pas. On vérifie 
que Pg définit bien une probabilité. 
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Évènements indépendants 


e Aest indépendant de B si P(A|B) = P(A) 
c'est-à-dire la connaissance de B ne change pas les “chances! de 
réalisation de A 


e Aest indépendant de B = B est indépendant de A 


e Si À and B sont indépendants, alors : 


P(A NB) = P(A) P(B) 
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Théorème de Bayes 


_ F(ANB)  P(B|A) P(A) 
FAIR) 5) = FE) 


Par la formule des probabilités totales : 
P(B) = P(ANB)+P(AN B) = P(B|A) P(A) + P(B|A) P(A) 


D'où : 


_ P(B|A) P(A) 
P(B | A) P(A) + P(B |A) P(A) 


Thomas Bayes (1701-1761) mathématicien et pasteur britannique 
Pierre-Simon Laplace (1749-1827) mathématicien, astronome, physicien 
français 
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À retenir 
e Théorème de Bayes 


_P(ANB) _P(B|A) P(A) 
FAIR) = pts) — FE) 


e Règle de la somme 
P(4) = ÿ_ P(ANB) 
B 
e Règle du produit 
P(ANB)=P(A|B)P(B) 


e D'où 


P(A) = ÿ_P(A| B)F(8) 
B 


Vocabulaire : probabilité conditionnelle, probabilité jointe, probabilité marginale 
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Théorème de Bayes 

À vos boitiers | 
Vous venez de passer un test pour le dépistage du cancer. 
Le médecin vous convoque pour vous annoncer le résultat : mauvaise 
nouvelle, il est positif. Pas de chance, alors que ce type de cancer ne 
touche que 0.1% de la population. 


Vous lui demandez si le test est fiable. Sa réponse est sans appel : 
« Si vous avez le cancer, le test sera positif dans 90% des cas; alors que 
si vous ne l'avez pas, il sera négatif dans 97% des cas ». 


Selon vous, après le résultat d’un tel test, 
quelle est la probabilité que vous ayez le cancer ? 


A) > 90% 
B) = 90% 
C) =9% 
D) <5% 
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Théorème de Bayes 

À vos boitiers | 
Vous venez de passer un test pour le dépistage du cancer. 
Le médecin vous convoque pour vous annoncer le résultat : mauvaise 
nouvelle, il est positif. Pas de chance, alors que ce type de cancer ne 
touche que 0.1% de la population. 


Vous lui demandez si le test est fiable. Sa réponse est sans appel : 
« Si vous avez le cancer, le test sera positif dans 90% des cas; alors que 
si vous ne l'avez pas, il sera négatif dans 97% des cas ». 


Selon vous, après le résultat d’un tel test, 
quelle est la probabilité que vous ayez le cancer ? 


A) > 90% 
B) = 90% 
C) —=9% 

D) <5% 
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Théorème de Bayes 


Faux positifs 


Explications : 
Sur les 309 personnes qui sont 
IDOOO personnes testées testées positives, 9 seulement sont 
OIX réellement malades, et 300 sont 
mé saines : ces 300 sont ce qu'on 
ER MO soins appelle des faux positifs. Si vous 
PAS PAS êtes positif, vous n'avez donc que 
| naodif  Tpotifs 300 poitifs L10 néstifs D 59% 
EEE NON 309 "7 


LA de sains a 
| : cl: 

les testés positits | de risque d'être réellement malade, 
et donc 97.1% de chance d'être un 


faux positif, et donc d'être sain. 


Crédits : D. Louapre (Science Étonnante) 
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Théorème de Bayes 


Répondre à la bonne question 


Vous avez répondu 90% ou plus ? 


e Si vous êtes testé positif et que vous vous demandez si vous avez le 
cancer, vous cherchez : 


« la probabilité d'être malade sachant que le test est positif » 


e Quand le médecin vous dit que « Si vous avez le cancer, le test sera 
positif dans 90% des cas », il s'agit de : 


« la probabilité d'être testé positif sachant que l'on est malade » 


Kévin Polisano Cours de Statistiques de L1 — MAP 201 111/229 


Théorème de Bayes 


Formuler le problème 


H = “je suis malade” (hypothèse à tester) 
O = “le test est positif” (l'observation) 


e Si vous êtes testé positif et que vous vous demandez si vous avez le 
cancer, vous cherchez P(H | O) : 


« la probabilité d'être malade sachant que le test est positif » 


e Quand le médecin vous dit que « Si vous avez le cancer, le test sera 
positif dans 90% des cas », il s'agit de P(O | H) : 


« la probabilité d'être testé positif sachant que l'on est malade » 
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Théorème de Bayes 


Écrire la formule de Bayes 


H = “je suis malade” (hypothèse à tester) 
O = ‘le test est positif” (l'observation) 


e P(H) = 0.001 
10000 personnes testées . (O| H) = = fé 
. e P(O)=P(ONH)+P(ON A) 
IQ malades 1710 sains (O) _ P(O | H)P(H) " P(O| H)P(H) 
VA 7 = 0.9 x 0.001 + 0.03 x 0.999 
| négatif 1 positifs 300 positifs 410 négatifs — 0.03087 
ATLA de sains parmi 
les testés rss | P(H|O)= OS P(H) 
0.9 


= OÙ 2.99 
HET Min 
Crédits : D. Louapre 


Kévin Polisano 
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Raisonnement inductif 


Erreurs à ne pas commettre 


@ Ne pas se tromper de question : P(A|B) Z P(B|A) 


« la probabilité d'être malade sachant que le test est positif » 


£ 


« la probabilité d'être testé positif sachant que l'on est malade » 
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Raisonnement inductif 


Erreurs à ne pas commettre 


@ Ne pas se tromper de question : P(A| B) £ P(B|A) 
@ Ne pas négliger le taux de base : la fiabilité d'un test n'est pas 
suffisant, il faut s'intéresser à la probabilité a priori 
e Manger un aliment X augmente de 300% le risque de cancer C 
e Ne pas manger X augmente de 30% le risque d'anémie À 
Oui MAIS : 
e Si P(C) = 0,0001% alors l'augmentation du risque de 300% donne 
P(C|X) = 0,0004% — augmentation brute de 0,0003% 
e Si P(A) — 0,1% alors l'augmentation du risque de 30% donne 
P(A]X) = 0,13% — augmentation brute du risque de 0,03% soit 
100 fois plus importante. 
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Raisonnement inductif 


Erreurs à ne pas commettre 


© Ne pas se tromper de question : P(A|B) £ P(B]A) 
@ Ne pas négliger le taux de base : la fiabilité d'un test n'est pas 
suffisant, il faut s'intéresser à la probabilité a priori 


@ Prendre en considération les faux positifs et faux négatifs : la 
fiabilité d'un test s'évalue au regard de ces types d'erreurs | & Il. 

e Sensibilité, spécificité et valeurs prédictives d'un test de dépistage : 
http://www.adeca68.fr/prevention_et_depistage/ 
performances_dun_test_de_depistage.166.html 

e Important pour apprécier la pertinence de dépistages systématiques 


Type | Error Type Il Error 


4 El gi 
You're not | - 
À | pregnant! 
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A 


You're 
pregnant! 


Raisonnement inductif 
Erreurs à ne pas commettre 
@ Ne pas se tromper de question : P(A| B) £ P(B|A) 
@ Ne pas négliger le taux de base : la fiabilité d'un test n'est pas 
suffisant, il faut s'intéresser à la probabilité a priori 
@ Prendre en considération les faux positifs et faux négatifs : la 
fiabilité d'un test s'évalue au regard de ces types d'erreurs | & Il. 
@ Une affirmation extraordinaire requiert une preuve extraordinaire 
e Rappel : Test fiable à 99% -£ 99% de chance que le test soit vrai! 
e Exemple : Une maladie touche 0,1% de gens, vous passez un test qui 
est négatif et fiable à 99%. Il serait étrange que votre probabilité 
d'être sain soit passée à 99% alors qu'initialement elle était de 99,9%. 
e Au contraire le résultat négatif augmente votre probabilité d'être sain 
e Dans quelle mesure ? Si la preuve est fiable et notre degré de 
croyance initiale est fort alors on y croira encore plus à l'issue du 
test. Si on y croyait presque pas avant le test, on y croira plus que 
« presque pas », ce qui ne signifie pas forcément d'y croire tout à 
fait ! Si vous partez d'une croyance a priori extrêmement faible il vous 
faudra une preuve extrêmement fiable pour passer la barre des 50%. 


Kévin Polisano Cours de Statistiques de L1 — MAP 201 117/229 


Raisonnement inductif 


Erreurs à ne pas commettre 


© Ne pas se tromper de question : P(A|B) £ P(B] A) 

@ Ne pas négliger le taux de base : la fiabilité d'un test n'est pas 
suffisant, il faut s'intéresser à la probabilité a priori 

@ Prendre en considération les faux positifs et faux négatifs : la 
fiabilité d'un test s'évalue au regard de ces types d'erreurs | & Il. 


© Une affirmation extraordinaire requiert une preuve 
extraordinaire : Si vous partez d'une croyance a priori extrêmement 
faible il vous faudra une preuve extrêmement fiable pour passer la 
barre des 50%. 
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Monty Hall 


À vos boitiers | 
Vous êtes candidat à un jeu télévisé animé par un présentateur. 
e Soit trois portes, l'une cache une voiture, les deux autres une 
chèvre, répartis par tirage au sort et connu du présentateur. 
e Vous choisissez une des portes, mais rien n'est révélé. 
e Le présentateur ouvre une autre porte ne révélant pas la voiture. 
e Et vous propose avant d'ouvrir d'échanger votre choix. 


Beeeeh que faites vous ? Est-il préférable : 


A) De conserver son choix 
B) De changer son choix 
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Le paradoxe de Monty Hall 
Le premier choix n'est pas toujours le bon... 
Vous êtes candidat à un jeu télévisé animé par un présentateur. 


e Soit trois portes, l'une cache une voiture, les deux autres une 
chèvre, répartis par tirage au sort et connu du présentateur. 

e Vous choisissez une des portes, mais rien n'est révélé. 

e Le présentateur ouvre une autre porte ne révélant pas la voiture. 

e Et vous propose avant d'ouvrir d'échanger votre choix. 


Beeeeh que faites vous ? Est-il préférable : 


A) De conserver son choix 
B) De changer son choix 
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Le paradoxe de Monty Hall 


Explications 


Vous choisissez la porte 1. Ce que l'on sait a priori 
1/3 213 Avant ouverture d'une porte : 
| | o PCF) = P(# do 
e P(O3 | Hi) = 
eo P(O3|H3) = 0 
e P(O3 | Ho) = 1 
e Formule des probabilités 
totales : 
e P(O;) = probabilité que le 3 
présentateur ouvre la porte P(O3) = S_P(Os | H;)P(Hi;) 
e P(H;) = probabilité que la un 
voiture soit derrière la porte ji L 1 
2 
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Le paradoxe de Monty Hall 


Explications 
Le présentateur ouvre la porte 3. 
1/3 213 


Ce que l'on sait a posteriori 
Après ouverture de la porte 3 : 


P(H103) = 


I ND NIK] 


Vous devez choisir la porte 2! 
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Anatomie du raisonnement bayésien 


Un modèle d'apprentissage 


vraisemblance 


P(OIH 
péter, = ER P(H) 
ni — P(O) ni 
probabilité a posteriori ——.— probabilité a priori 


apport des observations 


e P(H) degré de confiance que l'on a vis-à-vis de l'hypothèse H avant 
de prendre en compte les observations 
e P(H|O) degré de confiance après prise en compte des observations 
e Le terme P(O]|H) s'appelle la vraisemblance, et quantifie le degré 
de compatibilité de l'hypothèse H et des observations O 
La formule de Bayes est alors un moyen de relier la probabilité a 
posteriori, et la probabilité a priori. C'est donc une formule qui 
permet de réviser nos degrés de confiance en fonction des 
observations et de rendre quantitatif le raisonnement inductif. 
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Anatomie du raisonnement bayésien 


Un modèle d'apprentissage 


vraisemblance 


P(O|H) 
P(H|O — — — P(H 
probabilité a posteriori —_— probabilité a priori 


apport des observations 


Exemples de champs d'application : 
e Sciences cognitives bayésiennes : cerveau statisticiens des bébés 
Inférence bayésienne en perception visuelle 
Filtrage de spam 


e 
e 
e Réseaux bayésiens en apprentissage machine 
e Justice 

eo 
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Formule de Bayes par xkcd 


dans pen 


POP IEEE p LM NER 
ASERGHELL | THE OŒAN/ I VTRE OCERN 


STANSTICALLY SPERKING, IF YOU PICK UP À 
SEASHELL AND DOWT" HOLD IT TO YOUR ERR, 
YOU CAN PROBABLY HEAR THE OCEAN. 


Crédits : xkcd — https://xkcd.com/1236/ 
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@ Variables aléatoires 
e Définitions discrètes et continues 
e Fonction de densité et de répartition 
e Espérance et variance 
e Lois usuelles 
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Variables aléatoires 


e Le concept de variable aléatoire formalise la notion de grandeur 
variant selon le résultat d'une expérience aléatoire. 

e Une variable aléatoire X est une fonction X : Q — R qui permet de 
passer d'une sortie d'une expérience aléatoire vers un nombre de R. 

e On distingue les variables aléatoires discrètes et les variables 
aléatoires continues. 
Exemples : La variable qui donne la somme des deux valeurs obtenus 
par le lancé de deux dés (discrète), la variable qui donne la taille 
d'un étudiant du DLST (continue). 

e Pour tout ensemble (borélien) À C R, cet ensemble est un évènement 


{XE Aj={weQ:X{(w)e A} 


Exercice : Pour une variable discrète À — {k} et on note l'ensemble 
[X = k], par ex. l'ensemble des cas où la somme des dés vaut 4. 
Pour une variable continue on a par exemple un intervalle À — [a, b] 
et {X € [a, b]} représente par ex. l'ensemble des étudiants dont la 
taille se situe entre 1m70 et 1m80. 


Kévin Polisano Cours de Statistiques de L1 —- MAP 201 127/229 


Loi d'une variables aléatoires 


L'application Px : BCR:— [0,1] définie par : 
Px(A)=P(XE A)=P({wueQ:X(w)e A), VAEB, 


est une mesure de probabilité sur (R, B), appelée loi de X. 
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Loi d'une variables aléatoires discrète 
Exemple avec la variable somme des dés 
Soit le cas considéré avec l'univers Q — {(1,1),(1,2),...,(6,5),(6,6)} 
et la variable aléatoire 
X : Q — R 
(w1,wo) + WU] + Wo 


L'ensemble des valeurs possibles de X est {2,3,...12}. La loi de X, ou 
encore distribution de probabilité, est k > Px(k) = P(X = k) dont les 
valeurs sont données par le tableau suivant : 


Kk 2 3 4 5 6 7 8 9 10 Ii 12 
FX = k) | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 


=k) 
1 


Pix 
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Densité et fonction de répartition d'une variables discrète 
Exemple avec la variable somme des dés 
e La loi de X est k+ Px(k) = P(X = k) = px 
e Le graphe (k, px) (à gauche) représente la fonction densité 
e La fonction constante par morceau (à droite) représente la fonction 
de répartition F : R — [0,1] définie par 


k 
F9 = Px(]-00, x]) = P(X < x) = SU P(X = x), kEq x € x < x 
i=1 
k 2 3 4 5 6 7 8 9 10 11 12 
P(X = k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 
- - me 
7 : 3. 3 
- L | | L L | | + 8 T T T T T 
2 4 6 8 10 12 2 4 6 8 10 12 
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Densité et fonction de répartition d'une variables discrète 
Exemple avec la variable somme des dés 

e La loi de X est k > Px(k) = P(X = k) = px 

e Le graphe (k, px) (à gauche) représente la fonction densité 

e À droite sa représentation sous forme d’histogramme de largeur 1. 


Px([2, b]]) = F(b) — + is P(X = x;), ie l tel que a< x; < b 
iel 
Il s'agit de l’aire des rectangles entre les abscisses a et b. 
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Mesure de probabilité vue comme une mesure d'aire 


Exemple avec le jeu de scrabble 


e Dans le cas du scrabble francophone (à no 

e La ere de tirer la lettre À est P({A}) = $, la lettre B est 
ÉXBT= 0: :4 PUZN = 10 (fréquences indiquées au centre) 

e On peut répréeniter cette probabilité sous la forme d'une aire, par 
exemple pour la lettre E (à droite), traduisant la proportion de E par 
rapport à l'ensemble de l'univers (d'aire 1). 


— Ceci explique pourquoi la théorie des probabilité est une branche de la 
théorie de la mesure! 


ABCDEFGHIJKLMNOPORSTUVWXYZ 


Y EE) 
Crédits : N. Gauvrit 
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Densité et fonction de répartition d'une variables continue 
Exemple avec la taille des étudiants 
e La loi de X : Px([a, b]) = P(a < X < b) probabilité que la taille 
d'un individu soit comprise entre a et b. 
Exemple : Px(1,6 < X < 1,9) = 0,8. 
e Fonction de répartition 
F(x) = Px(] — 00, x]) = P(X < x) = f7, f(t)dt où F est la 
densité de probabilité de X. 
e À droite des histogrammes approchant la densité. 


b 
te bte ee 0 0 He | f(bdt 


Il s'agit de l’aire de la fonction f entre les abscisses a et b. 


Crédits : N. Gauvrit 
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CQFR : Fonction de répartition et densité de probabilité 


Fonction de répartition d'une variable discrète 


soit X une v.a. discrète pouvant prendre les valeurs x1, x2,...xn 
avec les probabilités p; = P(X = x;) 


Ex(x) = PIX < x) = ÿ_P(X = x) = D pi 


XX XX 


Fonction de répartition d'une variable continue 


soit X une v.a. continue, alors elle est caractérisée par une densité 
de probabilité fx telle que : 


no Î St) du 
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CQFR : Fonction de répartition et densité de probabilité 


e X variable aléatoire discrète — distribution de probabilités 


l'ensemble des m probabilités associés aux m modalités de X 


Pi =PX = î) 


e X variable aléatoire continue — densité de probabilités 
Pour simplifier, on suppose fx continue et définie sur ] — oo, +oco| 
o fx(x) > 0,VxER 
e Fi fx(x) dx = 1 
o P(a< X < b) = Fx(b) = f(x 
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CQFR : Densité de probabilité 


Pour simplifier, on suppose fx continue et définie sur ] — 00, +oo[ 
eo fx(x)>0,VxEeR 
o FX fx(x) dx = 1 


e P(a < X < b}= Fx(b) — _. fx(x 
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Espérance 
Discrète vs. continue 


+00 
As À =ÿ) E(X) = | x fx(x) dx 


Quelques propriétés : si a est une constante alors 

e E(a) = a 

e E(aX) = aE(X) 

e E(X + a) = E(X) + a 
Propriété d'additivité : l'espérance d'une somme de variables aléatoires 
(indépendantes ou non) est égale à la somme de leur espérance 


E(X1 + X2) = E(X1) + E(X) 


Indépendance des variables : 


X et Ÿ indépendantes = E(XY) = E(X)E(Y) 
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Variance et écart-type 
Définition variance : 


+00 
V(X) = E[(X-E(X)}] = E(X?) -E(X) D. (x—E(X)} f(x) dx 


Exercice : montrer que V(X) = E(X2) — E(X)? 


Quelques propriétés : si a est une constante alors 
e V(X + a) = V(X) 
e V(aX) = à V(X) 
eo VEX + Y) = V(X) + V(Y) + 2Cov(X, Y) 
Cov(X, Y) = E(XY) — E(X)E(Y) = E[(X —- E(X))(Y -E(Y))] 
e X et Ÿ indépendantes, alors V(X + Y) = V(X) + V(Y) 


Définition écart type : 
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Variable centrée réduite, médiane et mode 


e On appelle variable aléatoire centrée réduite la v.a. ŸY construite 
telle que 


y _ X-E(X 


C'est le moyen le plus classique pour normaliser une v.a. Par 
construction, on obtient E(Y) = 0 et V(Y) — 1. 


e La médiane est la valeur correspondant au milieu de la fonction de 
répartition 
S - 1 
K: Fx(x) = — 
x(x) => 


Si la loi de la v.a. est symétrique, alors la médiane = l'espérance. 


e Le mode d'une variable aléatoire est sa valeur la plus probable. 
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Fonction de répartition et fonction quantile 


Le cas continu 
e Soit F : R — [0,1] fonction croissante et continue avec 
F(-00) = 1. Son inverse généralisée noté F1 est défini par : 


F-l(p)=inf{xeR:F(x)>p}, pef0,1] 


e La fonction de répartition d'une variable aléatoire X est est 
croissante continue et définie par : 


Fx(x) = P(X < x) 


e Son inverse généralisée Fe s'appelle la fonction quantile de X et 
la quantité F"{p) s'appelle le quantile ou fractile d'ordre p de X. 
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Lois usuelles 


Lois discrètes 

e loi uniforme discrète (le loto) 

e loi de Bernoulli (le tirage d'une pièce) 

e loi binomiale (plusieurs tirages d'une même pièce) 

e loi géométrique (temps d'attente d'un premier succès) 

x loi de Poisson (nombre d'éléments dans une file d'attente) 
Lois continues 

e loi uniforme continue 

e loi normale ou gaussienne (Saint-Graal des statisticiens) 

e loi exponentielle (durée de vue de circuits electroniques) 

* loi du y? (adéquation d'une distribution empirique à une loi donnée) 

* loi de Student (tests de comparaisons, intervalles de confiance) 


* (abordées dans la Partie 111), X (non abordée dans ce cours) 
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Loi discrète uniforme 
La loi discrète uniforme est la loi qui décrit le fait que chaque valeur d'un 
ensemble finie de valeurs possibles a la même probabilité de se réaliser. 


loi proba. espérance | variance 
ul : . - a+b (b-a+1)2-1 
Ua, b] | PIX) = 5 si a < x < b; 0 sinon 5 5 

1 

Li rt st cs 

EH à ÿ A _— 
n 
e—— 
e—— 

ne + 0 : 

pt Ne “= | ” b 


Gi T T 


a b 
Figure: Probabilité et fonction de répartition de la loi uniforme discrète 
(n=b-3+1) 
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Loi uniforme continue 


loi densité espérance | variance 
_a\2 
Ua, b] | fx(x) = FE avec a < x < b ab (25 


E(X) = 


Densité de la loi uniforme sur {a; b] 


a+b 
2 


1.0 


00Ù 


a 


b 


Figure: Densité de probabilité et fonction de répartition de la loi uniforme 


continue 
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Loi de Bernoulli : on tire une pièce une fois 


Une épreuve de Bernoulli de paramètre p (réel compris entre 0 et 1) est 
une expérience aléatoire comportant deux issues : 


e le succès, avec la probabilité p 


e l'échec, avec la probabilité 1 — p 


loi proba. espérance | variance 
B(p) | P(X=0)=1-p; P(X=1)=p p p(i — p) 


Exemple 1 : Le lancer d'une pièce équilibrée est une expérience de Bernoulli de 
paramètre p = 0.5. 

Exemple 2 : On tire au hasard une boule dans une urne contenant 7 boules 
blanches et 3 boules noires. On considère comme un succès le fait de tirer une 
boule noire. Cette expérience est une expérience de Bernoulli de paramètre 

p = 0.3 car la probabilité de tirer une boule noire est de 3/10. 
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Loi binomiale : on tire la même pièce n fois 


La loi binomiale est la loi associée à n répétitions, dans des conditions iid, 
d'une expérience aléatoire dont l'issue est l'apparition ou non d'un 
évènement. 


Si X1....X, sont n variables de Bernoulli de paramètre p alors 


X SN 


i=1 


loi proba. espérance | variance 
B(n,p) | P(X = k) = Cÿ pk(1 — p} 0) np |np(i-p) 


Exemple : On admet qu'un étudiant prend au plus un café par jour, que 
chaque jour sa proba de prendre un café vaut p, et qu'il y a indépendance entre 
ses choix quotidiens. La variable X décrivant le nombre de cafés pris par 
l'étudiant en une semaine est une variable aléatoire de loi B(5, p) 


Rappel : CÀ — TÉI 
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Loi géométrique : temps d'attente du premier succès 


On considère une épreuve de Bernoulli dont la probabilité de succès est p 
et celle d'échec 1 — p. On renouvelle cette épreuve de manière 
indépendante jusqu'au premier succès. On appelle X la variable aléatoire 
donnant le rang du premier succès. 


loi proba. espérance | variance 
Gp) | P(X=H=(G-p TP) ; Fe 


Exemple : On lance successivement un dé équilibré jusqu'à l'obtention 
d'un six. On pose X le nombre de lancers nécessaires. On a : 


mo)" 


et donc X + G(p) avec p = 1/6. 
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Loi normale = loi gaussienne (Saint Graal des statisticiens) 


loi 


densité de proba. 


espérance 


variance 


X = Nu, 0°) 


10 = Le) 


(à 


mn 


o? 


dnorm(x) 


T T T 
5 0 5 


La loi normale est l'une des lois de probabilité les plus adaptées pour modéliser 


des phénomènes naturels issus de plusieurs événements aléatoires. Elle est en 


lien avec de nombreux objets mathématiques dont le mouvement brownien, le 


bruit blanc gaussien ou d'autres lois de probabilité qu'elle approche par le 


théorème limite central. Elle permet la mesure d'erreur ou tests statistiques. 
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Loi normale = loi gaussienne 


Quelques propriétés 
e Loi normale centrée réduite : N(0,1) 
e Si X = N{u, 02) alors 4  N(0,1) 
o Si X1  N(y1, 02) et si X2 — N(l2, 03) alors 


aX1 + bX5 = N'(au + by, do; + b?oè 
Propriété : conservation vis à vis de l’addition 


Soit {X;} un ensemble de p v.a. normales de paramètres (1, 0?) 
indépendantes. Alors leur somme est une v.a. normale de paramètres 


Œi, Yo?) 
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Loi exponentielle 


si x < 0 


loi densité de proba. espérance | variance 
Xe XX six > 0 
x = E0) | #69 = LE LE 


dexp{x, 5) 


T T T T T 
0 1 2 3 4 


Cette loi permet entre autres de modéliser la durée de vie de la radioactivité ou 
d'un composant électronique. Elle peut aussi être utilisée pour décrire par 
exemple le temps écoulé entre deux coups de téléphone reçus au bureau, ou le 
temps écoulé entre deux accidents de voiture dans lequel un individu donné est 
impliqué. 
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@ Théorème limites 
e La loi des grands nombres 
e Théorème limite central 
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La loi faible des grands nombres 


On considère une suite (X;,)1en- de variables aléatoires non corrélées 
définies sur un même espace probabilisé, ayant même variance finie V(X) 
et même espérance E(X). La loi faible des grands nombres stipule que, 
pour tout réel € strictement positif, la probabilité que la moyenne 


empirique 


s'éloigne de l'espérance d'au moins € tend vers 0 quand n — +co. 


= 


3 


Théorème (loi faible des grandes nombres) 


X+X+...+X, 00 >e)=0 
: ) > 


VE > 0, lim P ( 
n— +00 


Es 


Autrement dit, (Yh)h1en+ converge en probabilité vers E(X). 
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La loi faible des grands nombres 


Preuve de l'inégalité de Markov 


Inégalité de Markov 


Soit Z une variable aléatoire réelle définie sur un espace probabilisé 
(Q,.4,P) et supposée presque sûrement positive ou nulle. Alors 


a 


Va > O, P(Z>4)< 
Démo : On a l'inégalité 
Vw € Q, Z(w) _ a1{Z(w)>a} ) 


dès que a > 0. On en déduit que 


E[Z] > E[a l{z>a] —= aP(Z > a) 
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La loi faible des grands nombres 


Preuve : de l'inégalité de Markov à celle de Bienaymé-Tchebychev 


Inégalité de Bienaymé-Tchebychev 
Pour tout réel strictement positif «, 


V{X) 
2 


P(IX -EfX]| > a) < 
Démo : simple application de l'inégalité de Markov à la variable 
(X — E[X])? et au réel a? strictement positif compte tenu du fait que 
{IX — EX] > a} = {(X - EI) > a°}. 
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La loi faible des grands nombres 


Preuve : de l'inégalité de Bienaymé-—Tchebychev à la loi faible des grands nombres 


Théorème (loi faible des grandes nombres) 


Ve>0, lim p([ÉTREE 
n— +00 


n 
Démo : On a d'après l'inégalité de Bienaymé-Tchebychev : 


0|><) =0 


V(Y) 
2 


P(Y-E(YI>9< — 


X+X +... +X 
On remarque que la variable aléatoire Y, — Er EP a pour 


V(X) 


espérance E(X) et pour variance 


#{ 


. Ainsi, pour tout n : 


ALAIN 
n 
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Théorème de la limite centrée 


Xi +X+ + X 


La variable aléatoire Y, — 


n 


pour variance 


V(X) 


vn (= 


a pour espérance E(X) et 


, donc la variable aléatoire 


E(X)) 


Zn = ———> 
VV(X) 
est d'espérance nulle et de variance 1. 


Théorème de la limite centrée 


La suite (Z,) converge en loi vers une loi normale centrée réduite 


Z = N(0,1). 


Kévin Polisano Cours de Statistiques de L1 —- MAP 201 155/229 


Théorème de la limite centrée 
Planche de Galton 
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Théorème de la limite centrée 
Planche de Galton 
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Partie 111 : Estimation paramétrique 
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@ introduction 


@ Estimation ponctuelle 
e Estimateur statistique 
e Qualité d'un estimateur 
e Estimateur de l'espérance, d'une proportion et de la variance 


@ Estimation par intervalle de confiance 
e Notion d'intervalle de confiance 
e Estimation par intervalle de confiance d'une proportion 
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@ introduction 
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Introduction 


Questions abordées dans cette partie 


On sait calculer des indicateurs numériques à partir d’un 
échantillon de données … 
e Mais comment généraliser à la population entière ? 


e Quelles informations sur la population obtient-on en étudiant 
l'échantillon ? 


e Quelle confiance peut-on accorder à ces informations ? 
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Introduction 


Statistique inférentielle 


L'idée : à partir d'échantillons représentatifs, on va introduire des 
résultats sur la population. 


On étudie une variable X, dont on observe des réalisations. On suppose 
que X suit une loi connue, i.e. on choisit parmi les modèles existants la 
loi la plus appropriée au phénomène observé. Seule la valeur numérique 
du paramètre Ÿ intervenant dans cette loi de probabilité est inconnue. 


X = P(8), 6 inconnu 


Exemple : soit X la taille des habitants de Grenoble. On suppose que X 
suit une loi normale, de moyenne inconnue 8 et de variance connue. On 
va donc chercher à estimer 4 à partir d'un échantillon de données. 
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Introduction 


Deux types d'estimation 


On considère généralement deux types d'estimation : 


e L’estimation ponctuelle : on cherche à calculer une unique valeur 
Ô estimant au mieux 6. 


e L'estimation par intervalle de confiance : on estime la 
probabilité que la valeur vraie d'un paramètre appartienne à un 
intervalle donné, on a ainsi un ensemble de valeurs vraisemblables 
donc une estimation ensembliste ou région de confiance. 
Typiquement, on cherche a et b tel que, par exemple 


P(a < 0 <b) = 0.95 
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Introduction 


Hypothèses effectuées 


On note les données x1, x2,...Xn. 


e On regardera x; comme le j-ème tirage d’une variable aléatoire X : 
X = P(0) 


e Ou de façon équivalente comme une réalisation d'une variable X; de 
même loi que X. De plus, les X; sont supposées indépendantes : 


Xi © P(6) 
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@ Estimation ponctuelle 
e Estimateur statistique 
e Qualité d'un estimateur 
e Estimateur de l'espérance, d'une proportion et de la variance 
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Estimation ponctuelle 


Soient x1,x2,...,x, les n valeurs prises par la v.a. X dans un échantillon 
de taille n prélevé dans la population-mère. 
e Une statistique t est une fonction des observations x1, x2,...,Xh : 
t': R” — R7 
(X1,...,Xn) + t(x1,...,Xn) 


e Un estimateur de @ est une fonction construite à l'aide des {X;} : 


Th = t(X1, :  Xn) 


e Une estimation est une réalisation £, = t(x1,...,xA) de l'estimateur 
T,. On note la valeur numérique de cette estimation par 


Ô = t(x1,..., Xn) 
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Estimation ponctuelle 


Exemple 


@ On observe un phénomène de production de pièces manufacturées. 
Chaque pièce est associée à une mesure (un indicateur de qualité par 
exemple). Comme on ne peut pas vérifier chaque mesure, on procède à un 
échantillonnage qui nous fournit donc un échantillon. 


@ Supposons que la connaissance de la nature de cet indicateur nous permet 
de faire l'hypothèse qu'il obéit à une loi de probabilité normale. 


@ Le problème est maintenant, au vue de l'échantillon {x;}, de proposer une 
valeur pour la moyenne de cette loi normale. Il faut procéder à une 
estimation du paramètre vrai 0 qui se traduit par la valeur ô.1l y a une 
infinité de manière possible parmi lesquelles : 


eo O0 — la moyenne, 


e O0 — la médiane, 


e 0 — le mode, 
e Ô — X29, .… 


— Quel est le meilleur estimateur de la moyenne ? Existe-t-il ? Qu'est ce 
que cela veut dire meilleur ? 
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Qualité d'un estimateur 


Il n'existe pas de "meilleur estimateur" ! mais il existe des critères de 
comparaison : 


Biais On souhaite que l'estimation ne soit pas systématique- 
ment décalée par rapport à la valeur vraie. 
Précision Si l'on répète l'estimation sur un autre échantillon, on 


souhaite obtenir une estimation cohérente, donc peu de 
variation d’un échantillon à l’autre. On parlera aussi d’ef- 
ficacité. 

Convergence | Si l'on peut estimer la valeur du paramètre sur toute la 
population-mère, la valeur de l'estimation obtenue doit 
être la valeur vraie du paramètre. 

Complexité Toute estimation nécessite un calcul donc un temps. On 
s'attachera donc à évaluer la complexité du calcul en 
fonction de la taille des données. 

Robustesse Dans tout cas concret, il existe des sources de perturba- 
tions. On souhaite que l'estimation ne soit pas sensible 
à la présence de valeurs abérantes. 
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Estimation ponctuelle 
e Estimateur sans biais 


Un estimateur T, est dit sans biais lorsque son espérance 
mathématique est égale à la valeur vraie du paramètre. 


Biais = 


e Précision d’un estimateur 


Ti = 


On mesure généralement la précision d'un estimateur par l'erreur 


quadratique moyenne : 


EQM( Th) = 


EE 


e Estimateur convergent 


(UT = 0) = VTT) + ET) = 0 


Un estimateur T, de Ÿ est convergent en moyenne quadratique si 


Kévin Polisano 


(Th — 0)?) — 0 quand n — co 
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Ilustration 
Faible EQM Forte EQM 


Faible biais 


Fort biais 


Crédits : http://www.cs.cornell.edu/courses/cs4780/2015fa/web/lecturenotes/lecturenote12.html 
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Estimation d'une espérance 


1 n 
Xn = = > se 
est un estimateur sans biais et convergent de l'espérance 
0 = E[X] 


e La moyenne est un estimateur sans biais : 


[Xa] = 5x) =; > * 


n 


= DEx]- SEX -0 


i=1 i=1 


e La moyenne est un estimateur convergent : 

1 n 

rs 
l= 


(+) car les X; sont indépendants. 


VIX,] = V 


mvyxl ) LS UXI = = =vX] ——0 


i=1 
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Estimation d'une proportion 


Un estimateur fournit par la loi des grands nombres 


La fréquence empirique d'un évènement 
est une estimation de sa probabilité 


Preuve : Soit f,(i) la fréquence de la valeur x; dans l'échantillon de taille 
n(X,..., Xn), Bx = Î{x,=x) et pi = P(X = x;). Ainsi la suite (B4) est 
constituée de loi de Bernoulli indépendantes de paramètre p;, de variance 
finie et d'espérance commune E(B4) = p;, d'où d'après la loi des grands 
nombres : 


_ Brel 


fn(i) 


— L'estimation d'une proportion peut être vu comme un problème 
d'estimation de moyenne. 
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Estimation d'une proportion 


Un estimateur sans biais convergent 


La fréquence empirique d'un évènement 
est une estimation de sa probabilité 


e f, est un estimateur sans biais : 


AE fe) © [5e ==) LB] = = D pr = pi 


e f, est un estimateur convergent : 


1 1 
n n 
k=1 


VI£] = V 


(+) car les X; sont indépendants. 
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Estimation d'une variance 


On définit : . 
= 2 
De 2e ;— pu) = 5x - 

Si 4 est connue, alors V, est un estimateur sans biais de V[X] 
Preuve : 

= |) x] -Ep] 

i=1 
= DEA 


= E[X?] - 1° = VIX] 
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Estimation d'une variance 
On définit : 


i=1 i=1 


Si u est inconnue, alors 52 est un estimateur biaisé de V(X) 


Preuve : 


Le _ 
ESl= 5 >» E[X?] — E[X?] 
i=1 


= 2 DVD] + EXT) — IR] - EIXP 
i=1 


= 2 (nVIX] + nE[X}?) - =vIX] - EXT 


n — 


IX] 


= VX] SVIX] = 


Kévin Polisano Cours de Statistiques de L1 — MAP 201 175/229 


Estimation d'une variance 


On définit : 


Si 4 est inconnue, alors SÈ est un estimateur sans biais de V(X) 


Preuve : 
erce21 _ NM mre2 
IS, ] _ n—= 1 [S;] 
n n—-il 
_on—1 n 4 
= VIX] 
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Estimation d'une variance 


n 


s?2 _ s?2 
n n — 1 n 
K <— 10000 
n <— 10 
mu—=0 
sigma2=1 


# On considère K échantillons composés de n valeurs issues de N(mu,sigma2) 
# réparties sur chaque ligne de la matrice Xkn suivante 

Xkn <— matrix(rnorm(nxK,mean=mu, sd=sqrt(sigma2)),ncol=n) 
# On applique la variance selon les lignes, donnant K variances 

Snt <— apply (Xkn,FUN=var , MARGIN=1) 

Sn <— (n—-1}/nxSnt 

# S est la version biaisée (car var utilise la variance débiaisée) 
hist(Sn,nclass=30,probability=TRUE, main="Sn" ,col="blue") 
# la variance est décalée à n/(n-1)*sigma2=0.9 


abline(v=mean(Sn),col="red") ; abline(v=sigma2, col=3) 
hist(Snt ,nclass=30, probability=TRUE, main="Sn'",col="blue") 
abline(v=mean(Snt),col="red") ; abline(v=sigma2 , col=3) 
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Estimation d'une variance 


Illustration du biais 


A. D < pen-Mn-1 C2) 
Sn = gon ElSal= ——VIX] EfSs] = VIX] 
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Exercice 


On a mesuré le poids de raisins produits par souche sur 10 souches prises 
au hasard dans la vigne. On a obtenu les résultats suivants exprimés en 
kilogrammes : 


2.4 3.4 36 4.1 4.3 4.7 5.4 59 6.5 6.9 


@ Calculer la moyenne et la variance de l'échantillon. 


@ En déduire les estimation ponctuelles non biaisées de la moyenne et 
de la variance de la population dont sont extraites les souches. 
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@ Estimation par intervalle de confiance 
e Notion d'intervalle de confiance 
e Estimation par intervalle de confiance d'une proportion 
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Estimation par intervalle de confiance 


La "fourchette! 


Considérons un vote avec un assez grand nombre d'électeurs. Quand le scrutin 
est clot, on commence à dépouiller les bulletins. Assez vite on est en mesure de 
donner une estimation du résultat final. En pratique, on ne donne pas une 
estimation numérique (telle liste obtient 18% des votes) mais une fourchette, 
c'est-à-dire un petit intervalle dans lequel on estime que le pourcentage exact 


figure. 


e La taille de la fourchette dépend de la confiance qu'on souhaite avoir 
dans l'estimation. 


@ On peut vouloir que la probabilité que le pourcentage exact d'une liste 
soit bien dans la fourchette dépasse 0.95 (le niveau de confiance). 


e Plus on exige un haut niveau de confiance, plus la fourchette sera large. 
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Estimation par intervalle de confiance 


Notion d'intervalle de confiance 


Il est souvent plus réaliste et plus intéressant de fournir un renseignement 
de type a < 0 < b plutôt que de calculer à. 


On cherche à determiner l'intervalle [a, b], centré sur la valeur numérique 
estimée du paramètre inconnu 6, contenant la valeur vraie avec une 
probabilité 1 — & (0<a<1): 


P(a<80<b)=1-a 


e L'intervalle [a, b] est appelé intervalle de confiance, a le risque et 
1 — a le niveau de confiance. 


e Données de depart : l'échantillon et la connaissance de la loi de 
probabilité du paramètre à estimer. 
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Estimation par intervalle de confiance d'une proportion 


Soit une population dont les individus possèdent un caractère À avec une 
probabilité p. On dispose d’un échantillon de taille n, dont x individus 
possèdent le caractère À. 


e On sait maintenant que la proportion f, — x/n est une estimation 
de la valeur vraie p … 
e Mais avec quelle confiance ? 


e On cherche donc à construire un intervalle de confiance de 
l'estimateur. 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance d'une proportion 


Soit une population dont les individus possèdent un caractère À avec une 
probabilité p. On dispose d'un échantillon de taille n, dont x individus possèdent 
le caractère A. La proportion f, — x/n est une estimation de la valeur vraie p. 


Principe 


1 n 
e Soit F1 — — + X;. F, est une v.a. construite comme somme de n v.a 
n 
i=1 
indépendantes de type Bernoulli et de paramètre p, i.e X; — B(p). 
e La loi de T,; — nF, suit une loi binomiale B(n,p) … 


e La loi de T, tend vers une loi normale de moyenne np et de variance 
np(1 —p) (cf. TP 2, approximation valide si np > 10 et n(1 — p) > 10) 


e La variable renormalisée approche une loi normale centrée réduite : 
T, -np 


— © > N(0,1 
np(1 — p) ce 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance d'une proportion 
Ts -np 


On écrit alors 
P|————| <u, |&1-a, 
np(1 — p) 


où u, est une valeur (se lisant dans la table de la loi normale W(0,1)) 
qui vérifie : 


IVe mi=e Ni), 


Pour en déduire un intervalle de confiance, il suffit d'écrire 
Ton _| < y, sous la forme Z <p< Z: 
Vnp(i-p) 


Th — np 


np(1— p) 


<Uy > < 
: np(1 — p) 


T 
= pf(n +05) — p(2Ta + ua) + 2 < 0 
Crédits : O. Gaudoin 
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Estimation par intervalle de confiance d'une proportion 


Intervalle de confiance asymptotique 


2 T2 À ur 
Le trinôme p?(n+ u2) — p(27, + u2) + est toujours positif sauf entre 
ses racines. Donc ses racines sont les bornes de l'intervalle de confiance 
recherché : 


T u? / u2 To(n-T T u2 u2 T{n=T 
n T2n Ua An? Lg Dee à Cd. a An? ue Sr 2) 
1 u2 ? 


+ 1+% 


Pour les valeurs usuelles de à et pour n grand, on peut négliger u? par 
rapport à n. D'où, avec F, = Le et une réalisation f, de F,, on obtient 
l'intervalle de confiance asymptotique suivant : 


à ALICE LE nl = To) 
n n 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance d'une proportion 


Fourchette du sondage 
Une élection oppose deux candidats À et B. Un institut de sondage interroge 
800 personnes sur leurs intentions de vote : 
e 420 déclarent voter pour À 
e 380 déclarent voter pour B 


Estimer le résultat de l'élection, c'est estimer le pourcentage p de voix 
qu'obtiendra A le jour de l'élection, en inférant sur l'ensemble de la population. 
L'estimateur de p est la proportion f, — 20 = 52.5%. L'institut de sondage 
estime donc que le candidat À va gagner l'élection. Mais pour évaluer 
l'incertitude, on a besoin d'un intervalle de confiance de seuil disons 5% pour p. 
On obtient alors l'intervalle de confiance asymptotique suivant 


[0.4904. 0.5596] 


Conclusion : on a une confiance de 95% dans le fait que le pourcentage 
de voix qu'obtiendra le candidat À sera compris entre 49% et 56%. 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance d'une proportion 


Obtenir une prédiction plus précise 


À quelle condition l'intervalle de confiance pour p sera 
entièrement situé au dessus de 50% ? 


= || s'agit donc de réduire l'intervalle de confiance, de largeur : 


fn(1 — fn) 


n 


f = 2u, 


Pour diminuer cette largeur £, on peut : 


e Diminuer u,,, c'est-à-dire augmenter &, donc augmenter la 
probabilité de se tromper en affirmant que le candidat est élu; 


e Augmenter n, c'est-à-dire augmenter le nombre de personnes 
interrogées. 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance d'une proportion 


Taille de l'échantillon minimum 
À un seuil de confiance à = 5% fixé, combien de personnes n doit-on 
interroger pour que l'intervalle de confiance n'excède pas une largeur /? 


On sait que Vp € [0,1], p(1 — p) < 4, donc 


A(1—-f) < Ua 
n n 


2u, 


Ainsi il suffit de déterminer n tel que 


—_ és 100 3 0 2 : : : 
Pour n = 800, on a ne a 7.5% — la précision sur l'estimation de p est 
donc avec une confiance de 95% de plus ou moins 3.5%, ce qu'on a constaté 
avec l'intervalle [49%, 56%]. 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance d'une proportion 
Taille de l'échantillon minimum 


À un seuil de confiance à = 5% fixé, combien de personnes n doit-on 
interroger pour que l'intervalle de confiance n'excède pas une largeur /? 
On sait que Vp € [0,1], p(1 — p) < x, donc 


Are 
ou, FE fr) 


Le Le 
n 7 V/n 
Ainsi il suffit de déterminer n tel que 
2 
us u° 
— < L n> 
y/n g2 


Si on veut, avec le même niveau de confiance, avoir une précision < à 1%, il 
faudra interroger au moins 


2 


1.96? 
— he 38416 personnes 
Crédits : O. Gaudoin 
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Exercice 


Afin d'étudier l'influence des rayons X sur la spermatogénèse de Bombyx 
Mori (vers à soie sous sa forme papillon), on a irradié des mâles au 2ème 
jour et au 4ème jour du stade larvaire. Ces mâles ont été accouplés avec 
des femelles non irradiées. On a compté le nombre d'œufs fertiles dans la 
ponte des femelles, et on a obtenu : 


nombre d'œufs totals | nombre d'œufs fertiles 
5646 4998 


@ Donner l'estimation du pourcentage d'œufs fertiles 


@ Calculer un intervalle de confiance approximatif du pourcentage 
d'œufs fertiles au niveau de confiance 0.9. On donne uo.1 — 1.6448. 
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Rappel théorème de la limite centrée 


eo Si X1,..., X, sont indépendantes et de même loi partageant 
d'espérance y et de variance o?, l'estimateur sans biais de 
l'espérance u est la moyenne empirique X} 


e Le théorème central limite assure que pour n suffisamment grand : 
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Rappel théorème de la limite centrée 


Pour une loi normale 


e Si X1,..., XA sont indépendantes et de même loi normale Nu, o?), 
l'estimateur sans biais de variance minimale (ESBVM) de y est la 
moyenne empirique X} 


e Les propriétés élémentaires de la loi normale permettent d'établir : 


Li 2 
dx  N(nu, no?) = Xn = N (a T) 
i=1 
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Caractérisation de la loi de l'estimateur X, 


Pour une loi normale 


K <— 10000 

n <— 10 

mu=3 

sigma2=1 

# On considère K échantillons composés de n valeurs issues de N(mu,sigma2) 
# réparties sur chaque ligne de la matrice Xkn suivante 

Xkn <— matrix(rnorm(nxK,mean=mu, sd=sqrt(sigma2)),ncol=n) 
# On applique la moyenne selon les lignes, donnant K moyennes 

Mn <— apply (Xkn,FUN=mean , MARGIN=1) 

hist (Mn, nclass=30, probability=TRUE, main="Mn" ,col="blue") 
abline(v=mean(Mn) ,col="red") ; abline (v=mu, col=3) 
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Caractérisation de la loi de l'estimateur X, 


Pour une loi normale, effet de la taille de l'échantillon n = 10 


tu 2 
SX = N(ny, no?) = Xh A (a z) 


i=1 
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Caractérisation de la loi de l'estimateur X, 


Pour une loi normale, effet de la taille de l'échantillon n = 100 


n 2 
SX = N(ny, no?) = Xn A (a z) 
i=1 
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Caractérisation de la loi de l'estimateur X, 


Pour une loi normale, effet de la taille de l'échantillon n = 1000 


n 2 
SX = N(ny, no?) = XA A (a z) 
i=1 
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Estimation par intervalle de confiance de la moyenne 


Pour une loi normale, lorsque la variance o est connue 


e Si X1,..., XA sont indépendantes et de même loi normale Nu, o?), 
l'estimateur sans biais de variance minimale (ESBVM) de y est la 
moyenne empirique X} 


e Les propriétés élémentaires de la loi normale permettent d'établir : 


n 2 
SX = N{nu, no?) = Xa = N Cu T) 
i=1 


sea 
o2/n 


e On cherche un intervalle de confiance pour y de la forme 
[Xn — €, Xn + €], soit pour a fixé : 


P(X,—u|<e)=1-a 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance de la moyenne 


Pour une loi normale, lorsque la variance o est connue 


o Si X1,..., XA sont indépendantes et de même loi normale Nu, o?), 
l'estimateur sans biais de variance minimale (ESBVM) de y est la 
moyenne empirique X, 

e On cherche un intervalle de confiance pour y de la forme 
[Xh — €, Xh + €], soit pour a fixé : 


1—a=P(IXr — 1] < €) 


© 
1— P(|U] > ua) =1 =» (lu . ve) 
e On en déduit u, — ve soit € = NL d'où l'intervalle de 


confiance : 


o _ o 
x, — 5 + Xn + Fuel 


Kévin Polisano 


Crédits : O. Gaudoin 
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Loi du y? 

Définition : 

Une v.a réelle suit une loi du Xe (chi-deux) à p degrés de liberté si elle se 
réalise comme une somme 


p 
2 2 
Xp — >,U 
i=1 


où Ui,..., U, sont p variables normales N(0,1) indépendantes. 


La densité de x est donnée par 


1 


(+) — 2P/2F(p/2) exp( D) ne ; 


+00 
F:xeRtr | tLexp(-tdt , 
0 


et son espérance vaut p et sa variance 2p. 
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Loi du + 


Illustration de la densité et de la fonction de répartition selon p 


Densité du chi2 Fonction de distribution du chi2 


function(x) dchisatx, 1) 
function(x) pchisa(x, 1) 
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Caractérisation de la loi de l'estimateur S, 


Théorème de Fischer 


Théorème de Fischer 


Si X1,..., XA sont indépendantes et de même loi normale N{u, a), alors 


ns? (n = 152 2 
‘ln 2 T Xn-1 


œ 
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Caractérisation de la loi de l'estimateur S’ 


K <— 10000 

n <— 10 

mu=0 

sigma2=1 

# On considère K échantillons composés de n valeurs issues de N(mu,sigma2) 
# réparties sur chaque ligne de la matrice Xkn suivante 

Xkn <— matrix(rnorm(nxK,mean=mu, sd=sqrt(sigma2)),ncol=n) 
# On applique la variance selon les lignes, donnant K variances 

St <— apply (Xkn,FUN=var , MARGIN=1) 

Ki <— (n—1)/sigma2xSt 

# On calcule l'histogramme qui doit approcher une loi chi2(n-1) 
hist(Ki,nclass=30, probability=TRUE, main="Chi") 

# On affiche les moyennes empiriques et vraies 
abline(v=mean(Ki),col="red" ,lwd=2) ; 
abline(v=n—-1,col=3,lwd=2) 

# On affiche les courbes de densités approchées et vraies 
lines(density(Ki),col="red") 


", col="green",ylim=c(0,1),xlim=c(0,10) ,add=TRUE) 


plot(function(x) dchisq(x,n—1),0,35,main="Chi square density 
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Caractérisation de la loi de l'estimateur S’ 
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Estimation par intervalle de confiance de la variance 


Pour une loi normale 


2 2 2 
P(a<  <b)- (<<) 
o2 b a 


= 62.0) — F2_.(a) 


= Il y a une infinité de façons possibles de choisir a et b de sorte 
à ce que cette probabilité soit égale à 1 — «. Si on choisit : 


a a 
LD=1-5, Fa (=5 
alors, avec z,_1, dans la table de ET on a 


P(Z > St) — 1 nn F,2(21-1,a) — , 


Fe 


et ainsi les valeurs suivantes conviennent : 


b— Zn—1,a/2» 4 Zn-1,1-a/2 


Crédits : O. Gaudoin 
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Estimation par intervalle de confiance de la variance 


Pour une loi normale 


Un intervalle de confiance de seuil & pour le paramètre o? de la loi 


Nu, a?) est : 
ns? nS? | : Ë —1)S52 (n—1)52 


) 
Zn—1,a/2 Zn-1,1-a/2 


) 
Zn-1,a/2  Zn-1,1-a/2 
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Loi de Student 


Définition : 
Une v.a réelle suit une loi de Student à p degrés de liberté si elle se 
réalise comme sous la forme 


EE St(p) ) 
Xp 


p 
où U suit une loi N(0,1) et x? indépendantes. 


La densité de St(p) est donnée par 


k+1 


1 LOS t2 Fa 
CE (+t) 


son espérance n'est pas définie pour p = 1 et est nulle pour p > 1, sa 
variance est infinie pour p < 2 et vaut ee pour p >2 
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Loi de Student 


Illustration de la densité et normalité asymptotique 


Densité de Student 


function(x) dx, 2) 
o 
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Estimation par intervalle de confiance de la moyenne 


Pour une loi normale, lorsque la variance o est connue 
e Si X1,..., XA sont indépendantes et de même loi normale Nu, o?), 
l'ESBVM de y est la moyenne empirique X, 


e Un intervalle de confiance pour y de la forme [X, — €, X, + €], est 
pour un risque « fixé : 


e Une idée naturelle est de remplacer & par son estimateur S/ 


e On utilise non plus U — Ha r N(0,1), mais : 


\/o2/n 
Xn — Xn — 


VS2n * S: 


É 4 N(0,1) 


Crédits : O. Gaudoin 
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Caractérisation de la loi de l’estimateur 7, 


Théorème de Fischer 


Théorème de Fischer 


Si X1,..., XA sont indépendantes et de même loi normale N{u, a), alors 


RE à St(n 1) 
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Estimation par intervalle de confiance de la moyenne 


Pour une loi normale, lorsque la variance o est inconnue 


o Si X1,..., XA sont indépendantes et de même loi normale Nu, o?), 
les estimateurs sans biais de variance minimale (ESBVM) de (11, o?) 
sont (X,, S2). 

e On cherche un intervalle de confiance pour y de la forme 
[Xh — €, Xh + €], soit pour a fixé : 


1— a = (IX — ul < 6) 
arf 

S 
1 -r (re) > ) = -r (re) > =) 


! 
e On en déduit 5-14 = ne soit € — SE too d'où l'intervalle de 


confiance : 


LS! x? 
1x, Cu nine Xn + tel 


Crédits : O. Gaudoin 
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Liens avec les fonctions de distributions et quantiles 


Pour une loi normale 


Pour une variable aléatoire U  N(0,1) et un réel a € [0,1] on a défini 
la valeur u, vérifiant : 


P(IU) > u)=a 
Par symétrie de la loi on a alors P(U > u,) = $ et P(U < —u,) = 
FU(Ua) 


d'où y = Fy (1-3 


D: 


= P(U£ va) =1-—P(U > M) = 1-7, 


>) = qnorm(1 — $). On a ainsi 
P(-us <U<u)=1-a 
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Liens avec les fonctions de distributions et quantiles 
Pour une loi du x? 
Pour une variable aléatoire Z — y2 et un réel a € [0,1] on a défini la 
valeur Z: vérifiant : 
RESssi=4 


Extra) = PE ma)= 1-0 > 25)=1-&, 
d'où za = F7'(1-— à) = qchisq(1 — @). On a ainsi 
P(0<Z<Z1a)=1-a 
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Liens avec les fonctions de distributions et quantiles 
Pour une loi de Student 
Pour une variable aléatoire T + St(n) et un réel à € [0,1] on a défini la 
valeur t,4 vérifiant : 
Pile) = 


Par symétrie de la loi on a alors P(T > t,4) = $ et P(T < —t,a) = 5. 
a 
Era) = PTE tra) =1= PT > ta) = 1 5 


d'où tra = F7 (1-— 4) = qt(1— &). On a ainsi 
P(—tna < T <tna) =1-a 
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Partie IV : Introduction aux tests d'hypothèse 
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Introduction 


Jeu de Pile ou Face et triche 


Karl et Ronald jouent à Pile ou Face. 
Karl parie systématiquement sur Pile et Ronald sur Face. 


e Au bout de 6 lancers : 


e Karl obtient 1 fois Pile 
e Ronald obtient 5 fois Face 


— Cela vous semble-t-il suspect ? 


e Ils continuent. Au bout de 18 lancers : 


e Karl obtient 4 fois Pile 
e Ronald obtient 14 fois Face 


— Cela vous semble-t-il suspect ? 


Crédits : À. Jebrane (cours statistiques L2 psychologie) 


Kévin Polisano Cours de Statistiques de L1 —- MAP 201 216/229 


Introduction 
Jeu de Pile ou Face et triche 


e Au bout de 6 lancers : 
e Karl obtient 1 fois Pile 
e Ronald obtient 5 fois Face 


— Cela vous semble-t-il suspect ? Si X — B(6, À) alors 
P(X > 5) = 1 — pbinom(4,6,0.5) & 0.109 


e Ils continuent. Au bout de 18 lancers : 
e Karl obtient 4 fois Pile 
e Ronald obtient 14 fois Face 


— Cela vous semble-t-il suspect ? Si X = B(18, 5) alors 
P(X > 14) = 1 — pbinom(13,18,0.5) & 0.015 


Karl a 985 chances sur 1000 de ne pas se tromper en refusant 
d'attribuer au hasard seul sa perte au jeu. 
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Formulation des hypothèses 


Jeu de Pile ou Face et triche 


On souhaite déterminer si Ronald est un tricheur ou est honnête. On 
confronte alors ces deux hypothèses : 


e Ho : Ronald est honnête, chaque lancer a une chance sur deux de 
faire Face. (Hypothèse nulle) 
e Hi : Ronald est un tricheur, il utilise une pièce qui a plus de chances 
de faire Face. (Hypothèse alternative) 
Ces deux hypothèses ne jouent pas des rôles symétriques : 
e la première suppose que Ronald n'a pas d'effet sur le jeu, que seul le 
hasard intervient ; 


e tandis que la second considère qu'un processus supplémentaire (par 
exemple la triche, utilisation d'une pièce truquée) modifie les 
résultats par rapport au premier cas de figure. 
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Formulation mathématiques des hypothèses 


Jeu de Pile ou Face et triche 


Le modèle probabiliste doit permettre de voir si l'échantillon observé est 
une « exception » ou s’il ne diffère pas significativement de la majorité 
des autres échantillons choisis au hasard. 


Soit X la v.a comptant le nombre de Face obtenues après n lancers (ici 
n = 18), les hypothèses H5 et H1 peuvent se réécrire comme des 
hypothèses sur la loi de X, ce qui se traduit par un test paramétrique : 


e H:X = B(n,p) où p — L. (Hypothèse nulle) 

e H:X = B(n,p) où p > L. (Hypothèse alternative) 
= p n'est connue que dans le cas Ho où Ronald est honnête, on ne peut 
donc calculer explicitement de probabilité que dans le cas de l'hypothèse 


Ho. On dit que Hh est testable et que H1 ne l'est pas directement. 
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Principe du test d'hypothèse 


Analogie avec un procès en justice 


e On se place sous l'hypothèse Ho (présomption d'innocence) pour 
voir s’il est raisonnable de maintenir cette hypothèse au vu des 
données observées (éléments de l'enquête). 


e À l'issue du test statistique (après enquête), on pourra prendre la 
décision de rejeter l'hypothèse Ho (de condamner Ronald) si l'on 
considère les résultats de l'expérience comme incompatibles avec 
cette l'hypothèse, jugée fortement improbable au vu des données. 

e Si au contraire les résultats sont compatibles avec l'hypothèse, on 
dira que l'on ne rejette pas H5 (Ronald est acquitté). 

— Cela ne signifie pas que l'on ait la certitude que Ho soit vrai (être 
acquitté est différent que d'être innocent), mais que l'on ne 
dispose pas d'assez de preuves pour la rejeter (c'est-à-dire ici 
pour accuser Ronald). 
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Risques d'erreur 


Quand on prend des décisions en se basant sur des tests statistiques, on 
n'est pas à l'abri de commettre des erreurs. Elles sont de deux types : 


e Erreur de type | : Rejeter à tord Ho, cela revient à accuser un 
innocent (erreur judiciaire). 


e Erreur de type Il : Accepter à tord Ho, cela revient à innocenter un 
coupable. 
Etat \ Décision Accepter Ho Rejeter Ho 
Ho vraie Pas d'erreur Erreur de type | 
Hi vraie Erreur de type Il Pas d'erreur 
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Risques d'erreur 
e Erreur de type | : Probabilité de rejeter Ho alors que Ho est vraie : 
a = P(rejeter Ho | Ho est vraie) 
Proposition contraire : accepter HG alors que Hg est vraie 


(vraisemblance) :1 — à = P(accepter Ho | Ho est vraie) 


e Erreur de type Il : Probabilité d'accepter Ho alors que Hi est 
vraie : 
B = P(accepter Ho | Hi est vraie) 


Proposition contraire : rejeter Ho lorsque que Hi est vraie 
(puissance) :1 — 6 — P(rejeter H6| Hi est vraie) 


Etat \ Décision Accepter Ho Rejeter Ho 
Ho vraie Pas d'erreur (proba 1 — a) Erreur (proba a) 
Hi vraie Erreur (proba 6) Pas d'erreur (proba 1 — 5) 
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Région de rejet 


La prise de décision se fera en fonction de l'appartenance des données 
observées à une certaine région de valeurs. Ici, on a envie : 


e D'accuser Ronald de tricherie si le nombre de Faces est très élevé. 
e De ne pas l'accuser si le nombre de Faces est raisonnable. 


On cherche donc une région, que l'on notera W, appelée région 
critique, composée de valeurs élevées, dans laquelle on a peu de chances 
de tomber si jamais Ho est vraie : 


P(XEe W, | Ho) < a 


On choisit de rejeter Ho dans cette région. 
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Région de rejet 


Dans notre exemple, on prend par exemple à — 0.05 et on rejette Ho si le 
nombre de Faces observé est trop grand au niveau à, c'est-à-dire s’il est 
plus grand qu'une valeur seuil k, qui dépend du risque d'erreur que l'on 
est prêt à accepter. 


Pour trouver cette région W, la plus grande possible, on doit chercher 


tous les k tels que 
P(X>k)<a 


et prendre la plus petite parmi elles. Par exemple pour X = B(6, 1) on a 
P(X > 6)—0.0156, P(X > 5) = 0.109 
donc W, — {6}, tandis que pour X + B(18, 5) on a 


W, = {13, 14,15, 16, 17,18} 
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Notion de p-valeur 
Si on prend un risque & — 0.01 alors la région critique sera 
We, = 115, 16,17,18} 


qui ne contient pas la valeur observée 14. Donc entre les deux niveaux 
de risques il y a une valeur à où on change de décision, cette 
valeur s'appelle la p-valeur. 


Dans notre exemple, pour quel niveau « a-t-on 
W,=114:15,16,17.18}7 


On obtient 


a = P(X > 14) = 0.015 


La p-valeur est donc par définition la probabilité sous l'hypothèse nulle 
d'observer des données au moins aussi grandes que la donnée observée. 
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Notion de p-valeur 

Un domaine d'application : l'étude du paranormal 
Afin de tester un potentiel don d'un individu, on peut soumettre ce dernier à 
une épreuve aléatoire (par exemple : le test des cartes de Zener vu en TP), et 
quantifier via la p-valeur si le résultat obtenu peut être considéré comme 
extraordinaire sous l'hypothèse nulle. 


NORMAL. DISTRIBUTION 


BISTRIBUTNON 


PALANORMAL 
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Notion de p-valeur en vidéo 


Phases su 
les ncissences 


https://wwi.youtube.com/watch?v=PRtwoij0y21 
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Attention aux tests multiples 


THAT SETLES THAT. 
ZHEAR ITS ONLY 
A CERTAN 
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Quelques mots de conclusion pour ce cours 


Ce qu'il faut retenir de tout cela 


e Savoir résumer et présenter des données. 

e Qu'est qu'une variable aléatoire ? une densité de probabilité ? une 
fonction de répartition ? 

e Savoir manipuler la règle de la somme, du produit et de Bayes. 

e Connaitre et reconnaitre la loi normale et autres lois usuelles . 

e Étudier les propriétés des estimateurs (biais, variance, etc.) ainsi que 
leur loi. 

e Comprendre et expliciter les intervalles de confiance, tests 
d'hypothèse et calcul de p-valeur. 

e Interpréter des résultats statistiques et éviter les écueils mentionnés 


dans ce cours. 
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